本站首页    管理页面    写新日志    退出



公告


 求真务实打基础,
 宁缺毋滥读好书。

数据挖掘青年(DMman)


我的分类(专题)

日志更新
问君能有几多愁,恰似一群太监上青楼
我和僵尸有个约会:灵异世界或真实存在?
赤壁(下)观后小感:雷人
英科学家:酒精和烟草的危害大于大麻和摇头
只有社会主义才能拯救世界(由金融危机引发
求职心得(非名牌院校 硕士 计算机)
省外就业协议录入
数据挖掘方面的资源、期刊、会议的网址集合
面试心得(摘)
为学
EI收录中国期刊-核心(2008-5)
混沌理论:随机世界的建模
分子计算机已经问世,纳米计算机指日可待?
绝对好用免费的网络电话
NLP:基于机器学习的人类思想及行为建模
Weka中用于组合多个模型的的装袋、提升
数据挖掘在企业中应用的四种途径
(转)几点做人做事的建议
大学计算机软件专业生应该学什么(转)
一个程序员对学弟学妹建议(转)

最新评论

留言板

链接

Blog信息
blog名称:DMman(数据挖掘青年)
日志总数:102
评论数量:564
留言数量:57
访问次数:1765763
建立时间:2007年4月9日




[数据挖掘]决策树的经典构造算法ID3&C4.5
网上资源

数据挖掘青年 发表于 2007/7/23 9:36:16

决策树概述:   决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,最大树的深度等等),来限制决策树的。决策树作为一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。构造决策树的过程为:首先寻找初始分裂。整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。决定哪个属性域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。建决策树,就是根据记录字段的不同取值建立树的分支,以及在每个分支子集中重复建立下层结点和分支。建决策树的关键在于建立分支时对记录字段不同取值的选择。选择不同的字段值,会使划分出来的记录子集不同,影响决策树生长的快慢以及决策树结构的好坏,从而导致找到的规则信息的优劣。可见,决策树算法的技术难点也就是选择一个好的分支取值。利用一个好的取值来产生分支,不但可以加快决策树的生长,而且最重要的是,产生的决策树结构好,可以找到较好的规则信息。相反,如果根据一个差的取值来产生分支,不但减慢决策树的生长速度,而且会使产生的决策树分支过细,结构性差,从而难以发现一些本来可以找到的有用的规则信息。 以下转自 祥子的BLOG http://blog.sina.com.cn/u/4d8d63030100096x#sort_1对分类树中的ID3和C4.5算法做了比较“实在”的介绍。 决策树的经典构造算法(一)——ID3 ID3算法是1986年由Quilan提出的,它是一个从上到下、分而治之的归纳过程。ID3算法的核心是:在决策树各级结点上选择属性时,通过计算信息增益来选择属性,以使得在每一个非叶结点进行测试时,能获得关于被测试记录最大的类别信息。其具体方法是:检测所有的属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树,它可以用来对新的样本进行分类。     有关信息增益的定义以及具体的计算方法和实例,可以参考马瑜和王有刚的论文《ID3算法应用研究》的第1、2两节。     ID3算法思想描述如下: (1) 初始化决策树T为只含一个树根(X,Q),其中X是全体样本集,Q为全体属性集。 (2) if(T中所有叶节点(X’,Q’)都满足X属于同一类或Q’为空)then 算法停止; (3) else     {任取一个不具有(2)中所述状态的叶节点(X’,Q’); (4) for each Q’中的属性A do 计算信息增益gain(A,X’); (5)     选择具有最高信息增益的属性B作为节点(X’,Q’)的测试属性; (6) for each B的取值bi do         {从该节点(X’, Q’)伸出分支,代表测试输出B=bi;         求得X中B值等于bi的子集Xi,并生成相应的叶节点(Xi’,Q’-{B});} (7) 转(2);}     ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法也暴露出一些问题,具体如下:     (1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。     (2)ID3是非递增算法。     (3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导致决策树中子树的重复或有些属性在决策树的某一路径上被检验多次。     (4)抗噪性差,训练例子中正例和反例的比例较难控制。     于是Quilan改进了ID3,提出了C4.5算法。C4.5算法现在已经成为最经典的决策树构造算法,排名数据挖掘十大经典算法之首,下一篇文章将重点讨论。 决策树的经典构造算法(二)——C4.5 由于ID3算法在实际应用中存在一些问题,于是Quilan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法。     C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:     1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;有关信息增益率的定义可以参考栾丽华和吉根林的论文《决策树分类技术研究》1.2节。     2) 在树构造过程中进行剪枝;     3) 能够完成对连续属性的离散化处理;     4) 能够对不完整数据进行处理。     C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。  


阅读全文(12362) | 回复(3) | 编辑 | 精华
 


回复:决策树的经典构造算法ID3&C4.5
网上资源

烟雨朦胧发表评论于2007/8/5 19:46:44

.


个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


回复:决策树的经典构造算法ID3&C4.5
网上资源

烟雨朦胧发表评论于2007/7/30 22:30:51

字也不大些,呵呵,好使眼。

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


回复:决策树的经典构造算法ID3&C4.5
网上资源

真不准发表评论于2007/7/23 11:07:54

现在发论文,实际的编程的东西发不出去,只有发理论 性强的,算法啊,模式啊什么的,再加上个省级的什么项目,一发就中。 以下为blog主人的回复:  似乎理论性比较新的更容易中,虽然没有实际意义,但研究的比较少就比较容易发。譬如我女友跟导师做一个面瘫的号称容易中。 我觉得要是能在正规的高水平期刊上发表,还是需要有实质内容的高水平论文。现在很多论文阐述的功能都没有实现。

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


» 1 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.266 second(s), page refreshed 144762463 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号