共查询到20条相似文献,搜索用时 31 毫秒
1.
通过对已有的分词算法尤其是快速分词算法的分析,提出了一种新的分词词典结构,并据此提出了二次Hash^+二分最大匹配快速分词算法。该算法具有较快的分词速度。 相似文献
2.
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望. 相似文献
3.
汉语自动分词技术的最新发展及其在信息检索中的应用 总被引:2,自引:0,他引:2
分析了汉语自动分词与自然语言处理、自动分词与信息检索之间的关系,在此基础上,介绍了近年来自动分词系统实现的技术,分析了自动分词技术在信息检索中应用的有关问题。 相似文献
4.
一种快速中文分词词典机制 总被引:3,自引:0,他引:3
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率. 相似文献
5.
6.
藏文分词是藏文信息处理的基础,歧义问题是藏文分词的一个难点,而交集型歧义问题占藏文分词歧义问题的90%以上,因此,对交集型歧义问题的研究是藏文分词研究的一个重点。本文通过统计分析,按藏文文本中交集型歧义的规则特点,给出了一种改进的藏文分词交集型歧义消解方法,从而进一步提高了藏文自动分词的准确率。 相似文献
7.
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。 相似文献
8.
基于相邻知识的汉语自动分词系统研究 总被引:2,自引:0,他引:2
本文通过对计算机汉语自动分词的分析和研究,提出了基于相邻知识的自动分词方法。介绍了汉语分词系统,该系统的自学习机制,提高系统运行效率的方法,指出了进一步发展的方向。 相似文献
9.
一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究 总被引:1,自引:1,他引:0
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能. 相似文献
10.
11.
本文依据文献计量学的原理与方法,对2004-2008年5年发表的有关中文分词研究领域的论文进行了分析研究。通过对中文分词研究作者分析和文献分布分析,对我国在中文分词领域的研究现状进行了探讨。 相似文献
12.
13.
14.
针对传统的微博聚类分析中,只单独针对微博阅读数、评论数等数据(下称微博结构化数据)进行分类或者单独针对由微博内容进行文本分词得到的分词数据(下称微博分词)进行分类的问题,本文采用了Kohonen聚类,研究结合微博结构化数据和微博分词的融合数据聚类的效果是否比单独对微博结构化数据或对微博分词聚类有所提高。实证数据实验结果显示,微博结构化数据单独聚类会出现一个类的标准差特别大(本文称为离群类),而对融合数据聚类,微博结构化数据则不会出现离群类;融合数据聚类结果对微博分词的影响不显著。 相似文献
15.
自然语言检索中的中文分词技术研究进展及应用 总被引:1,自引:0,他引:1
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。 相似文献
16.
17.
一种基于词典的中文分词法的设计与实现 总被引:1,自引:0,他引:1
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。 相似文献
19.
英语-ing分词和-ed分词在国内外传统的语法书中一直被视为一种特殊的语法现象。动词-ing形式和-ed形式本身并不是一个孤立的语法范畴。它们是多个语法范畴的集合体。-ing分词和-ed分词在作名词前置修饰语时表现出形容词和动词两种属性。 相似文献