I    can   because   I   think   I   can !
首页(8) 搜索技术(3) Unix学习(2) 算法研究(0) 杂七杂八(1) 脚本语言(0) 职业生涯(0) 数据挖掘(0) 
 博客信息
blog名称:拓扑空间
日志总数:8
评论数量:3
留言数量:0
访问次数:26663
建立时间:2007年7月26日
最新公告
经过剑桥三一学院,我以牛顿之名许愿,当空间只剩下拓扑的语言,映射就成了永垂不朽的诗篇,用超越数去超越永远,一万年不变.
最新日志
Linux下 FTP设计与实现
Linux C 简单聊天程序的实现
编写简单的分词程序
分词中的难题
中文分词技术
终于把烦人的广告代码屏蔽掉了
谁知道怎么样屏蔽blog中的google
学术人生
最新回复
回复:谁知道怎么样屏蔽blog中的goo
回复:谁知道怎么样屏蔽blog中的goo
最新留言
签写新留言

友情链接

其他信息
分词中的难题  逍凌 发表于 2007/7/27 23:09:45
  有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。 2.1  歧义识别   歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。 交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。   2.2  新词识别 新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词? 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

      [

阅读全文(1299) | 回复(0) | 编辑 | 精华]


发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)
管理      摘写      注销
站点首页 | 苏ICP备05006046号
站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.031 second(s), page refreshed 144819557 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号