首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
通过对新闻行业进行分析,针对新闻网站对信息要求的特征,研究相关的中文分词算法以及全文检索框架,并设计了一个能够多线程进行数据采集和检索的垂直搜索引擎,然后通过盘古分词组件与Lucene搭建了一个高效的检索系统。系统通过中小型新闻网站的测试运行能够达到搜索引擎对信息查询准确性以及高效响应速度的要求,有较强的处理,改善了用户体验。  相似文献   

2.
基于Lucene搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎.介绍了基于英特网的中文搜索引擎的系统结构,Lucene的索引和搜索,并且设计实现了一个自己的搜索引擎--易搜中文搜索引擎.结果表明,基于Lucene的搜索引擎在索引和查找上的效率很高.  相似文献   

3.
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法.  相似文献   

4.
学生心理健康实时视讯平台以视讯交互为基础,同时涉及大量文档资料的检索,该文采用Lucene全文检索引擎,针对中文检索的难点,着重讨论了中文分词算法与常用中文分词组件,对Lucene算法进行了改进以更好适应本项目检索需求。同时该文采用Solr全文搜索服务器,对改进算法后的Lucene进行验证,这种方法不仅能适应Solr搜索服务器也能更好满足本项目需求。  相似文献   

5.
搜索引擎技术应用广泛。Lucene作为一个优秀的搜索引擎开源工具包,可方便实现相关搜索引擎功能。介绍了Lucene搜索引擎工具包,在此基础上,利用Lucene开发工具包,设计并实现了综合查询系统中搜索引擎功能。阐述了网络爬虫子系统、索引子系统和查询子系统3个模块功能。  相似文献   

6.
本文区别汉语自动分词中的“切分变异”、“组合型歧义”和“分词不一致”这三个概念,着重就“切分变异”这一分词现象的产生原因进行考证,并在真实语料调查的基础上统计切分变异字串在观察语料库中出现次数。探讨切分变异消解的原则。同时,本文还就“金本位”高质量分词语料库的建设提出设想和一种基于机器学习和错误驱动的算法。  相似文献   

7.
Lucene是一个基于Java的开放源码全文索引引擎工具包,它可以方便地嵌入到各种应用系统中实现全文索引/检索功能。文章介绍了如何使用Lucene开发定制的中文搜索引擎,为网站提供全文搜索功能,并且对相关的技术问题进行了探讨。  相似文献   

8.
基于Lucene的网站全文检索系统的开发   总被引:5,自引:0,他引:5  
Lucene是一个基于Java的开放源码全文索引引擎工具包,它可以方便地嵌入到各种应用系统中实现全文索引/检索功能.文章介绍了如何使用Lucene开发定制的中文搜索引擎,为网站提供全文搜索功能,并且对相关的技术问题进行了探讨.  相似文献   

9.
阐述中文分词技术,分析对比Lucene自带的分析器,针对JE中文分词器进行研究,并将JE中文分词器在Nutch中加以运用并改进,实现Nutch的中文分词.  相似文献   

10.
陶荣 《广西教育》2013,(7):184-186
阐述中文分词技术,分析对比Lucene自带的分析器,针对JE中文分词器进行研究,并将JE中文分词器在Nutch中加以运用并改进,实现Nutch的中文分词。  相似文献   

11.
《分词规范》与《正词法》1在中文信息处理中有着同样重要作用,两者既有各自的侧重点又存在一些共性的,两者所规定的词均与"语法词"、"词汇词"存在着联系,但《正词法》规定的分词连写方式并不能够解决中文信息处理的分词问题,只有充分利用《正词法》的研究成果,再结合中文信息处理的特点,才能使《分词规范》更加完善,促进中文信息处理分词问题的解决。  相似文献   

12.
基于组合度的汉语分词决策算法研究   总被引:1,自引:0,他引:1  
提出了汉字组合的组合度概念,讨论了组合度与组合的成词能力之间的关系,利用决策树的方法挖掘了组合度与分词模板的关系.在此基础上得出了一种新的分词算法.实验表明组合度对组合成词能力的影响远远大于组合频率的影响.这种分词方法对汉语分词的歧义问题、人名、地名识别问题;新词识别问题等都有一定的作用.  相似文献   

13.
垂直搜索引擎是针对某一个特定行业的专业搜索引擎,是搜索引擎的细分和延伸,可以反馈给用户更准确和更专业的查询结果.在高校的校园网信息检索应用领域,实现了基于Lucene技术的中文校园网垂直搜索引擎,其可以为用户提供专业的信息检索服务.  相似文献   

14.
词切分是指在阅读过程中把连续的语言信息切分成有意义的单元,以促进文本的阅读与加工。拼音文字中的词间空格起到了词切分的作用;而中文属于表意文字,书写方式与拼音文字不同,没有词间空格。拼音文字阅读词切分的研究发现,词间空格标示了词切分的位置,是词切分的依据,而且,空格有效地引导读者的眼动行为;而中文的文本没有类似空格的词边界的标记,人为标记词边界不能促进阅读,但是人为添加的词间空格能够促进单词的早期识别。关于中文的词切分已有大量研究,但仍存在如下需要解决的问题:(1)对中文词切分的切分依据的研究还没有一致的结论;(2)中文阅读眼动控制模型的构建还不成熟;(3)词切分与初学者学习之间的关系有待研究;(4)对外汉语教学的教材如何有效处理词切分;等等。未来研究应在以上方面加以探讨。  相似文献   

15.
为扩展分词知识库,提高自动分词能力,本文提出了一种基于自学习机制的汉语自动分词系统。该系统通过对逐词匹配法进行改进,结合分词规则来实现自动分词,并采用统计提取等自学习机制来完善和丰富分词知识库。模拟结果表明该系统能有效获取知识,获得较高的字段切分正确率。  相似文献   

16.
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。  相似文献   

17.
提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1~4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时的词库里,以备后续的句子查找,并可实现对词库添加词的功能.与经典MM算法和词频统计方法相比,本文算法有较大的改进.  相似文献   

18.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

19.
文章以汉语中一个特殊的语言现象——含“交集歧义”语段的非歧义句作为切入口,考察了分词加工在留学生句子阅读过程中不同的理解。文章指出,留学生主要靠词语的熟悉度以及与心理词汇的匹配程度来激活句子的分词加工;语段前的提示信息对分词的启动效应不明显;合词连写对句子理解的干扰性很大,是理解错误的主要原因。因此,适当增加分词连写的材料,有助于留学生理解句子,同时巩固和建构词的结构和界限,为阅读合词连写材料打下基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号