首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 359 毫秒
1.
中文信息处理分词过程中对歧义切分字段和未登录词的识别问题一直困扰着我们,至今仍然没有很好的解决方案。笔者认为问题产生的根本原因在于源头上没有识别的标识,就此本文提出了CCSS(Case of Chinese Segmentation Solution)方案,寻求建立一套文本编辑软件及与之兼容的智能系统,将自动分词与人工分词相结合,在文本编辑阶段彻底解决汉语分词问题。  相似文献   

2.
王立忠 《甘肃教育》2005,(12):44-44
动词是NMET考查的重点内容,而分词则是每年NMET动词部分的必考项目。学好现在分词及过去分词的关键.主要是看分词与相关的名词或代词之间的关系。相关的名词、代词是分词动作的执行者.即主动意义,用现在分词;相关的名词、代词是分词动作的承受者.即被动意义.则用过去分词。作形容词用的分词也不例外。下面结合近年来NMET中相关的考点,作简要分析。  相似文献   

3.
中分词一直是大规模语料库加工的基础,它需要能够正确识别出语料中的已知词和未登录词,而各种基于规则和统计的方法在识别已知词和未登录词时各有优劣。本试分别从已知词和未登录词识别两个方面,对ACL—SIGHAN第一届国际中分词竞赛中各参赛系统进行比较,指出中分词既需要提高已知词识别的准确率,还要能够较好地预测语料中出现的未登录词,并处理好它们之间的平衡关系。  相似文献   

4.
深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。  相似文献   

5.
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。  相似文献   

6.
根据中古汉语的基本特点,结合现有语料库的建设经验,阐述中古汉语语料库选取语料的若干原则:语料样本的代表性、文本类型的平衡性、语料之间的关联性与区别度、入库文献的特色性;讨论建立中古汉语语料库分词规范、分词词表的可行性,初步构建“信息处理用中古汉语分词规范”的整体框架。  相似文献   

7.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeoff2006的评测语料上进行了封闭测试。  相似文献   

8.
中文分词技术综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。  相似文献   

9.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

10.
基于神经网络的人工智能分词是中文分词技术的一个重要发展方向。介绍了当前神经网络分词的研究现状,给出神经网络分词的一般模型,重点阐述BP等算法在歧义解决中的应用,介绍了BP算法在未登录词识别方面的应用,最后对分词技术的发展进行了展望。  相似文献   

11.
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。  相似文献   

12.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法.  相似文献   

13.
为扩展分词知识库,提高自动分词能力,本文提出了一种基于自学习机制的汉语自动分词系统。该系统通过对逐词匹配法进行改进,结合分词规则来实现自动分词,并采用统计提取等自学习机制来完善和丰富分词知识库。模拟结果表明该系统能有效获取知识,获得较高的字段切分正确率。  相似文献   

14.
《分词规范》与《正词法》1在中文信息处理中有着同样重要作用,两者既有各自的侧重点又存在一些共性的,两者所规定的词均与"语法词"、"词汇词"存在着联系,但《正词法》规定的分词连写方式并不能够解决中文信息处理的分词问题,只有充分利用《正词法》的研究成果,再结合中文信息处理的特点,才能使《分词规范》更加完善,促进中文信息处理分词问题的解决。  相似文献   

15.
文章以汉语中一个特殊的语言现象——含“交集歧义”语段的非歧义句作为切入口,考察了分词加工在留学生句子阅读过程中不同的理解。文章指出,留学生主要靠词语的熟悉度以及与心理词汇的匹配程度来激活句子的分词加工;语段前的提示信息对分词的启动效应不明显;合词连写对句子理解的干扰性很大,是理解错误的主要原因。因此,适当增加分词连写的材料,有助于留学生理解句子,同时巩固和建构词的结构和界限,为阅读合词连写材料打下基础。  相似文献   

16.
词切分是指在阅读过程中把连续的语言信息切分成有意义的单元,以促进文本的阅读与加工。拼音文字中的词间空格起到了词切分的作用;而中文属于表意文字,书写方式与拼音文字不同,没有词间空格。拼音文字阅读词切分的研究发现,词间空格标示了词切分的位置,是词切分的依据,而且,空格有效地引导读者的眼动行为;而中文的文本没有类似空格的词边界的标记,人为标记词边界不能促进阅读,但是人为添加的词间空格能够促进单词的早期识别。关于中文的词切分已有大量研究,但仍存在如下需要解决的问题:(1)对中文词切分的切分依据的研究还没有一致的结论;(2)中文阅读眼动控制模型的构建还不成熟;(3)词切分与初学者学习之间的关系有待研究;(4)对外汉语教学的教材如何有效处理词切分;等等。未来研究应在以上方面加以探讨。  相似文献   

17.
联绵词造词探源   总被引:1,自引:0,他引:1  
从词本位出发,重新对联绵词进行探源,就会发现联绵词也有其造词理据,特别是原生造词阶段的联绵词.汉字未造之先,当有大量的复音词,包括联绵词.造字之后,可能有些联绵词会隐藏在一个字形里,和单音节词一起成为汉语的基本词汇.到了派生造词阶段,原生造词阶段的联绵词也会派生造出若干个联绵词;或者由原生造词阶段的单音节词通过重复的形式派生出叠音词,再由叠音词派生出联绵词.合成造词阶段虽说主要是合成词造词的方法,但也有不少联绵词的源词是由合成词在历史的演进中蜕变而成的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号