共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
甘秋云 《唐山师范学院学报》2013,(5):55-57
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。 相似文献
3.
郑炜冬 《韩山师范学院学报》2009,30(6)
在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开发基于该算法的自动分词系统,并探讨了开发过程的关键技术.实验表明,采用所述算法和技术的自动分词系统的准确率较高、分词速度较快. 相似文献
4.
5.
6.
刘敏娜 《咸阳师范学院学报》2012,27(2):55-57
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。 相似文献
7.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。 相似文献
8.
《洛阳师范学院学报》2015,(8):82-85
校园师生通过校园网进行有效的校内外信息搜索,中文分词起到举足轻重的作用.本文通过对中文分词方法的介绍,重点分析了最大匹配算法的优缺点,提出重组正向与逆向相结合的最大匹配算法思路,在校试验中取得了较好的效果. 相似文献
9.
10.
正向最大匹配法在中文分词技术中的应用 总被引:2,自引:0,他引:2
胡锡衡 《鞍山师范学院学报》2008,10(2):42-45
分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示. 相似文献
11.
12.
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。 相似文献
13.
学生心理健康实时视讯平台以视讯交互为基础,同时涉及大量文档资料的检索,该文采用Lucene全文检索引擎,针对中文检索的难点,着重讨论了中文分词算法与常用中文分词组件,对Lucene算法进行了改进以更好适应本项目检索需求。同时该文采用Solr全文搜索服务器,对改进算法后的Lucene进行验证,这种方法不仅能适应Solr搜索服务器也能更好满足本项目需求。 相似文献
14.
15.
在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、路径查找等工作分解为统一平台上相对独立的过程,能较好地配合多种常用分词算法,简化对各种算法的研究和描述。该模型与自然语言理解后续工作使用的数据结构如句法树等也有很好的相似性。 相似文献
16.
朱莉莉 《中国教育技术装备》2013,(3)
网络信息的急剧增长给人们搜索信息带来一定的困难,搜索引擎的出现及时地解决了这个问题.而在搜索引擎中核心的部分专一是中文分词算法,它在一定程度上影响着检索的速度.简单介绍中文分词的重要性、方法以及现在存在的问题,对中文分词的进一步发展提供一定的依据,推动搜索引擎发挥越来越强大的作用. 相似文献
17.
后缀树是一种非常重要的数据结构,它在与字符串处理相关的各种领域里有着非常广泛的应用。构造后缀树是应用后缀树解决问题的前提和关键。文章首先引入了一种新颖的数据结构——后缀树的相关概念,在此基础上,对其特点和算法的构建进行了论述,并探讨了后缀树及其算法在中文分词、关联分析中的应用,然后以中文文档聚类为例,结合中文需要分词的特点,设计出了基于后缀树聚类算法的聚类系统结构。 相似文献
18.
19.
针对人工智能在信息搜索领域的实际应用,本文介绍了一种基于中文分词算法的英语学习资源查询系统。该系统通过一种基于中文分词算法的搜索策略,结合事例推理技术实现对英语学习资源的智能搜索。系统测试结果表明,用户可以通过该系统搜索到所提问问题的类似事例以及解决该问题的相关知识条款。 相似文献
20.
基于碎片分词的未登录词识别方法 总被引:1,自引:0,他引:1
周蕾 《常熟理工学院学报》2007,21(2):77-81
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。 相似文献