分类算法——决策树

决策树
非叶节点表示根据属性判断,分枝表示判断结果流向,叶节点表示分类结果(类标号)

主要流程
1)选择在这一层用哪个属性作分类属性(这里的选择标准就是属性选择度量)
2)根据1)在当前节点进行数据的分类
3)按上两个步骤做下去,直到到达叶节点

问题细节
何时到达叶节点、叶节点的节点值怎么确定:
1、如果流到这个分枝的所有数据都已经属于同一个类了,那么这就是个叶节点,节点值就是这个类的类标号。这就是可能会出现属性没用完但是已经分好类的情况;
2、如果流到这个分枝的所有数据属性取值都一致,但它们的类标号又是不一样的,也就是说没有哪个属性可以把这个分枝里的数据区分开了,那么这就是个叶节点,节点值按照少数服从多数来取。这就是可能会出现属性用完了但是没分好类的情况;

属性选择度量
这个概念解决的是“如何选出一个最适合在这一层作为分类标准的属性”,最适合,在这里就是 “按照属性的不同取值来分类,分出了按照类标号分类的效果,或是最大程度上帮助数据朝着这个效果上进展”。
对于这个“最适合”,有几种经典的度量方式:ID3(信息增益)、C4.5(增益率)、GINI index(基尼指数)

ID3:
熵:混乱度
信息增益:混乱度变小的越多,信息增益越大
计算公式:blahblah

C4.5:
blah
好累,改天再写