首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于神经网络的人工智能分词是中文分词技术的一个重要发展方向。介绍了当前神经网络分词的研究现状,给出神经网络分词的一般模型,重点阐述BP等算法在歧义解决中的应用,介绍了BP算法在未登录词识别方面的应用,最后对分词技术的发展进行了展望。  相似文献   

2.
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。  相似文献   

3.
在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开发基于该算法的自动分词系统,并探讨了开发过程的关键技术.实验表明,采用所述算法和技术的自动分词系统的准确率较高、分词速度较快.  相似文献   

4.
中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料分词方法。它通过采用层叠隐马尔科夫模型将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系统框架。实验结果表明,该方法能够有效识别网络舆情用语,提高了分词准确率,为进一步发现高校网络舆情奠定了基础。  相似文献   

5.
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。  相似文献   

6.
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。  相似文献   

7.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

8.
校园师生通过校园网进行有效的校内外信息搜索,中文分词起到举足轻重的作用.本文通过对中文分词方法的介绍,重点分析了最大匹配算法的优缺点,提出重组正向与逆向相结合的最大匹配算法思路,在校试验中取得了较好的效果.  相似文献   

9.
对中文分词进行研究是自然语言处理的重要步骤,结合字典对短中文进行正逆向分词,在此基础上得到多组分词结果,利用基于统计的方法和基于规则的方法进一步优化算法,根据用户使用频度和网络搜索热度以及词语间的固定搭配规则对多组分词进行排序,并通过实例验证发现该方法具有较好分词效果。  相似文献   

10.
正向最大匹配法在中文分词技术中的应用   总被引:2,自引:0,他引:2  
分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示.  相似文献   

11.
词性自动校对在自然语言处理领域有着广阔的应用前景。针对传统基于规则的中文分词方法的不足,利用数据挖掘思想,通过对决策表的优化提出并实现了一种基于粗糙集的兼类词自动文本校对方法。该方法能够正确标注语料中挖掘、自动获取兼类词词性标注校对规则,提高兼类词词性校对标注的准确率。  相似文献   

12.
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。  相似文献   

13.
学生心理健康实时视讯平台以视讯交互为基础,同时涉及大量文档资料的检索,该文采用Lucene全文检索引擎,针对中文检索的难点,着重讨论了中文分词算法与常用中文分词组件,对Lucene算法进行了改进以更好适应本项目检索需求。同时该文采用Solr全文搜索服务器,对改进算法后的Lucene进行验证,这种方法不仅能适应Solr搜索服务器也能更好满足本项目需求。  相似文献   

14.
深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。  相似文献   

15.
在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、路径查找等工作分解为统一平台上相对独立的过程,能较好地配合多种常用分词算法,简化对各种算法的研究和描述。该模型与自然语言理解后续工作使用的数据结构如句法树等也有很好的相似性。  相似文献   

16.
网络信息的急剧增长给人们搜索信息带来一定的困难,搜索引擎的出现及时地解决了这个问题.而在搜索引擎中核心的部分专一是中文分词算法,它在一定程度上影响着检索的速度.简单介绍中文分词的重要性、方法以及现在存在的问题,对中文分词的进一步发展提供一定的依据,推动搜索引擎发挥越来越强大的作用.  相似文献   

17.
后缀树是一种非常重要的数据结构,它在与字符串处理相关的各种领域里有着非常广泛的应用。构造后缀树是应用后缀树解决问题的前提和关键。文章首先引入了一种新颖的数据结构——后缀树的相关概念,在此基础上,对其特点和算法的构建进行了论述,并探讨了后缀树及其算法在中文分词、关联分析中的应用,然后以中文文档聚类为例,结合中文需要分词的特点,设计出了基于后缀树聚类算法的聚类系统结构。  相似文献   

18.
中文分词技术综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。  相似文献   

19.
针对人工智能在信息搜索领域的实际应用,本文介绍了一种基于中文分词算法的英语学习资源查询系统。该系统通过一种基于中文分词算法的搜索策略,结合事例推理技术实现对英语学习资源的智能搜索。系统测试结果表明,用户可以通过该系统搜索到所提问问题的类似事例以及解决该问题的相关知识条款。  相似文献   

20.
基于碎片分词的未登录词识别方法   总被引:1,自引:0,他引:1  
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号