首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
年洪东 《文教资料》2007,(29):43-45
汉语的自动分词是进行汉语语言处理的基础,也是广大语言工作者建立自己专用语料库的基础工作。本文利用网上一些开源的软件工具和语料资源实现了针对新闻语料的专用分词系统,经测试分词准确率和召回率均达到了令人满意的效果。  相似文献   

2.
古汉语自动分词技术是实现古汉语文本深度处理的重要前提。经过多年探索,该领域已有了实质性进展。但是古汉语自动分词仍然面临一些关键问题:分词粒度界定、歧义消解和未登录词处理等。通过对基于词典和统计、机器学习序列标注以及深度神经网络模型等自动分词方法研究现状的梳理,指明充分利用深度学习技术是古汉语自动分词的未来发展趋势,并对古汉语自动分词的探索提出了三个方面的展望:扩充古汉语分词语料数据量、构建适应不同文本领域的分词模型、开发一体化模型。  相似文献   

3.
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法.  相似文献   

4.
先秦文献《孟子》自动分词方法研究   总被引:1,自引:0,他引:1  
自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。  相似文献   

5.
为扩展分词知识库,提高自动分词能力,本文提出了一种基于自学习机制的汉语自动分词系统。该系统通过对逐词匹配法进行改进,结合分词规则来实现自动分词,并采用统计提取等自学习机制来完善和丰富分词知识库。模拟结果表明该系统能有效获取知识,获得较高的字段切分正确率。  相似文献   

6.
本文介绍了汉语自动分词和网络语言的特点,利用双字哈希索引分词词典机制进行汉语分词,证明其方法的有效性.  相似文献   

7.
在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开发基于该算法的自动分词系统,并探讨了开发过程的关键技术.实验表明,采用所述算法和技术的自动分词系统的准确率较高、分词速度较快.  相似文献   

8.
本文区别汉语自动分词中的“切分变异”、“组合型歧义”和“分词不一致”这三个概念,着重就“切分变异”这一分词现象的产生原因进行考证,并在真实语料调查的基础上统计切分变异字串在观察语料库中出现次数。探讨切分变异消解的原则。同时,本文还就“金本位”高质量分词语料库的建设提出设想和一种基于机器学习和错误驱动的算法。  相似文献   

9.
自动分词是中文信息处理的基本工作 ,在诸多重要领域如篇章理解、机器翻译、文本检索、文本的语音输入输出、文本校对、自动标引等领域都得到广泛的应用。本文介绍了在输入法测试系统中的自动分词的应用 ,提出了必须采用适当的分词方法配合应用系统需求的思路  相似文献   

10.
中分词一直是大规模语料库加工的基础,它需要能够正确识别出语料中的已知词和未登录词,而各种基于规则和统计的方法在识别已知词和未登录词时各有优劣。本试分别从已知词和未登录词识别两个方面,对ACL—SIGHAN第一届国际中分词竞赛中各参赛系统进行比较,指出中分词既需要提高已知词识别的准确率,还要能够较好地预测语料中出现的未登录词,并处理好它们之间的平衡关系。  相似文献   

11.
中文图书自动分类是对书名和摘要信息进行中文分词,为标题和摘要的特征词赋予不同的权重,根据特征词的权重对图书进行分类。基于svm的机器自动分类和层次分类两种自动分类方法相结合,是中文书目自动分类的有效途径。  相似文献   

12.
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。  相似文献   

13.
汉语电子词典是汉语自动分词及词性标注系统的重要组成部分,其性能直接影响到分词及词性标注系统的速度和效果。本文介绍了一种通用的基于PB的汉语电子词典管理系统的设计与实现过程,通过该系统能有效地管理汉语电子词典,使得词典具有良好的性能和可扩展性,为汉语自动分词和词性标注等研究工作提供有力的工具支持。  相似文献   

14.
中文人名数量众多,规律各异,使得中文人名识别成为中文分词的重点和难点,中文人名识别技术的突破将对提高汉语自动分词和句法分析的准确性有着很重要的作用。本文根据中文人名的特点,利用条件随机场模型进行人名识别,通过第四届Bakeoff评测语料上测试,召回率为80.97%,准确率为94.42%,综合指标F为87.18%。  相似文献   

15.
设计了一个基于Web文本挖掘的分词系统。具体介绍了如何将Html格式的文档转化为Txt格式文本,以及利用MM法来实现对文档的汉语自动分词。并采用最大匹配加回退一字方法,处理交段长度为1的交集型歧义字段。  相似文献   

16.
在真实语料中提取词表面临着许多技术与理论上的难点与困难,但它又有着特殊的价值。“通用语料库”是国家语委组织研制的大型语料库,基本反映了现代汉语的语言面貌,完成对它的词表提取,其过程、做法及词表结果,都有着重要意义。机器分词时会遇到分词的正确性、加工精度的可容性、机器分词的强制性、机器分词的局限性等问题。源于真实语料的词表清楚反映出断代词汇由语言词和言语词两个层面构成,两个层面的词语之间有着互渗作用。源于真实语料的词表存在着书面语与口语的差异,不规范现象也较普遍存在,在词语的普遍性上与断代词汇有着相当的距离。  相似文献   

17.
基于汉语自动分词与自动标引、自由标引与自由词标引、自动摘要、自动分类、文本检索与全文检索等分析了我国计算机汉语语义组织和检索的研发过程.  相似文献   

18.
字母词是汉语词汇家族中的新成员。它的出现和使用是语言对社会生活的反映。字母词在给人们生活带来方便的同时,也增添了麻烦,尤其在中文信息处理技术上,字母词的自动切分是自动分词技术发展的瓶颈。本文对字母词进行了类型分析和定量统计,在此基础上提出了对字母词自动切分的一些构想。  相似文献   

19.
根据中古汉语的基本特点,结合现有语料库的建设经验,阐述中古汉语语料库选取语料的若干原则:语料样本的代表性、文本类型的平衡性、语料之间的关联性与区别度、入库文献的特色性;讨论建立中古汉语语料库分词规范、分词词表的可行性,初步构建“信息处理用中古汉语分词规范”的整体框架。  相似文献   

20.
“地”字结构是汉语中有标记的状语结构,“地”字结构的自动识别作为浅层句法分析的任务之一可以减少自动句法分析的歧义。本文在分析“地”字结构性质的基础上,利用规则与统计相结合的方法,基于分词文本对“地”字结构进行了对比性的识别研究。实验利用200万字的语料进行训练,将获取的数据用于自动识别,获得了较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号