Blog信息 |
|
blog名称:IDMer (数据挖掘者) 日志总数:175 评论数量:848 留言数量:119 访问次数:2516765 建立时间:2005年6月24日 |
我的相册 |
|

|
联系方式 |
 |
|
| |
公告 |
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com 我的新浪微博:@张磊IDMer |
网络日志 |
|
[转]数据挖掘工具的评判 |
|
|
|
|
|
数据挖掘者 发表于 2007/6/20 0:14:20 |
|
|
|
数据挖掘工具的评判
刘世平 姚玉辉博士/文
要做数据挖掘,当然需要工具。但若靠传统的自我编程来实现,未免有些费时费力,而且其性能也不一定比商业工具来得强和稳定。目前,世界上已经有很多商业公司和研究机构开发出了各自的数据挖掘产品,而且功能和使用简易性也在日益提高。例如:SAS公司的 Enterprise Miner以及IBM公司的 Intelligent Miner,等等。
直接采用商业数据挖掘工具来帮助项目实施,是一个很好的选择。它既节省了大量的开发费用,又可以节约维护和升级的开销。本文是目前国内第一份对主流数据挖掘工具的评估报告,该报告综合了国内一流业务专家和数据挖掘专家的意见,为帮助企业进行类似评估提供了很高的参考价值。
……
下面的案例,是国内某家大公司数据挖掘工具的技术评估过程:
该公司于2002年开始启动数据挖掘项目。对于该公司来说,数据挖掘是一项长期的工程。由于同时考虑到数据量大、业务需求广泛,因此本次评估对象仅限于企业级的数据挖掘工具。
根据所收集的资料,我们对目前在中国市场上最为流行的三大数据挖掘软件(SAS公司的 Enterprise Miner、IBM公司的 Intelligent Miner和SPSS公司的 Clementine,进行了评估。本次评估主要有6个主要标准,包括数据存取、数据处理、模型算法、自动建模、可视化以及其它系统要求。下面的内容说明了对每个工具在6个主要标准上进行打分的具体情况。
具体内容参见附件:500)this.width=500'>数据挖掘工具的评判.doc |
|
|
|
阅读全文(9114) | 回复(6) | 编辑 | 精华 |
|
|
|
|
|
|
|
回复:[转]数据挖掘工具的评判 |
|
|
|
|
|
huanliu721(游客)发表评论于2009/12/26 14:42:54 |
|
|
|
HENHAO |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:聚类算法综述 |
|
|
|
|
|
有所期待(游客)发表评论于2007/12/27 13:48:24 |
|
|
|
请问一下你现在是做什么工作的?会不会有大企业请你去给他们做数据分析啊? |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:[转]数据挖掘工具的评判 |
|
|
|
|
|
searchtest(游客)发表评论于2007/9/20 14:27:08 |
|
|
|
数据挖掘的搜索引擎
地址是
http://www.google.com/coop/cse?cx=006422944775554126616%3Aixcd3tdxkke |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:[转]数据挖掘工具的评判 |
|
|
|
|
|
clementine(游客)发表评论于2007/7/7 10:16:13 |
|
|
|
以下为blog主人的回复:
嗯,我同意你关于SAS在性能优化上的观点。的确SAS在很多环节上都可以对性能进行调优,从而保证数据挖掘时的高性能,除了对数据访问的性能优化,在多CPU、多线程、并行处理等方面的支持也使得SAS能够保持高性能。同时SAS的服务器可以安装在高性能的平台之上,比如HP-UNIX、AIX、LINUX等平台(当然也支持Windows平台),这也是性能的保证。
关于数据访问和抽取,我一直奇怪SPSS Clementine为什么只能通过ODBC来访问关系数据库,而不能通过Native Driver来访问。毕竟ODBC的性能低是众所周知的。
当然,对于一般的数据挖掘项目来说,性能还不是最重要的问题。对于分析型应用来说,常常都允许有比较多的时间来进行挖掘。挖掘出来的结果有价值才是最重要的。
关于数据挖掘的方法论,CRISP-DM和SAS的SEMMA都是很常用的。这两者我都仔细看过,也看过其它公司的方法论(比如IBM、NCR等)。其实大家真的没有什么明显的不同,只不过在名称等方面有细微的差异罢了。CRISP-DM是SPSS、NCR等三家公司共同制定的,它们自然会尽力推行了。Clementine其实也提供了一些本地的Native方式,不过基本功能很弱,类似于文件读取差不多。当然这个有历史原因,Clementine更侧重于数据挖掘流程以及挖掘模型的运用,没有考虑更多数据获取方面的效率问题。而且Clementine基于CS构架,采用ODBC也是不得已的,毕竟不是数据库或数据库厂商,依赖于合作对手,所以只能用开放的规范。 |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:[转]数据挖掘工具的评判 |
|
|
|
|
|
clementine(游客)发表评论于2007/6/27 13:04:57 |
|
|
|
嗯,SAS的性能的确厉害,但是这个性能主要是集中体现在SAS有一整套解决方案,他可以把优化分散到各个环节里头,而不单单是集中在算法上,比如他在自己的数据提取方面就做了不少工作。我个人认为,单从算法上SAS EM和Clementine差别不是很大,Clementine也有自己的的Server版本,通常咱们说的界面友好只是指Clementine Desktop。另外,关于算法完备性,觉得目前二者差不多都能满足需要了。
其实我觉得SAS EM的一个不足之处是体现在CRISP-DM的规范上,NCR和SPSS Clementine都很好的体现了这个规范,但貌似SAS一直想推自己的规范。还有就是对PMML的支持,我不太清楚EM底层,但我知道Clementine支持很好。
以下为blog主人的回复:
嗯,我同意你关于SAS在性能优化上的观点。的确SAS在很多环节上都可以对性能进行调优,从而保证数据挖掘时的高性能,除了对数据访问的性能优化,在多CPU、多线程、并行处理等方面的支持也使得SAS能够保持高性能。同时SAS的服务器可以安装在高性能的平台之上,比如HP-UNIX、AIX、LINUX等平台(当然也支持Windows平台),这也是性能的保证。
关于数据访问和抽取,我一直奇怪SPSS Clementine为什么只能通过ODBC来访问关系数据库,而不能通过Native Driver来访问。毕竟ODBC的性能低是众所周知的。
当然,对于一般的数据挖掘项目来说,性能还不是最重要的问题。对于分析型应用来说,常常都允许有比较多的时间来进行挖掘。挖掘出来的结果有价值才是最重要的。
关于数据挖掘的方法论,CRISP-DM和SAS的SEMMA都是很常用的。这两者我都仔细看过,也看过其它公司的方法论(比如IBM、NCR等)。其实大家真的没有什么明显的不同,只不过在名称等方面有细微的差异罢了。CRISP-DM是SPSS、NCR等三家公司共同制定的,它们自然会尽力推行了。 |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:[转]数据挖掘工具的评判 |
|
|
|
|
|
clementine(游客)发表评论于2007/6/22 17:15:17 |
|
|
|
貌似Clementine在国外应用一直是排第一啊!
以下为blog主人的回复:
你大概是在KDnuggets上看到的调查结果吧?那个值得参考,不过也仅供参考,因为参与调查的人不多,有很多的主观因素在里面。
一般来说,如果你希望得到对数据挖掘工具更专业的评估,建议你可以参考Gartner、META Group等权威评估机构给出的报告。一般来说,SAS的Enterprise Miner和SPSS的Clementine都位于领导者象限。
个人觉得这两个产品都是很优秀的产品,只是彼此的特点和适用范围不同。SAS Enterprise Miner的优势在于其算法的完备性和高性能,而SPSS Clementine的优势则体现在界面的友好性上。
同时需要注意的是,选择数据挖掘工具绝不能仅关注它支持哪些算法,界面是否友好,因为数据挖掘是一个不断循环的过程,在此过程中还有许多工作需要其它功能的支持。包括数据访问、数据整合、数据清洗、统计分析、结果的展现与发布等等。在这些方面来说,SAS的优势就更加明显,因为它拥有完整的产品线来支持这些功能。 |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
| » 1 »
| |