首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 125 毫秒
1.
一种面向中文信息检索的汉语自动分词方法   总被引:3,自引:1,他引:3  
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。  相似文献   

2.
国内中文自动分词技术研究综述   总被引:22,自引:0,他引:22  
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点.  相似文献   

3.
本文论述网络环境下中文网页信息的自动标引技术,具体研究分析了面向信息检索的自动分词与词表技术,提出了一个中文网页自动标引的改进方案,以更好地实现中文网络信息资源的自动处理,最后从文档到知识转变的视角,研究第三代网页内容搜索中应用中文信息自动标引的技术问题。  相似文献   

4.
全文检索中的汉语自动分词及其歧义处理   总被引:3,自引:0,他引:3  
歧义处理是汉语自动分词的核心问题,汉语自动分词是中文信息检索的基础性课题。目前有基于词典的分词方法、基于统计的分词方法、基于语义的分词方法和基于人工智能的分词方法。自动分词的歧义处理,目前主要有:利用“长词优先”排歧,利用特征词消歧,利用“互信息”和“t-信息差”消歧,利用专家系统分词消歧。参考文献15。  相似文献   

5.
在分词技术、索引技术、结构化查询语言技术的基础上,提出了一个基于XML文档数据库的信息检索系统,这一系统模型主要由分词模块、索引模块及查询模块组成。  相似文献   

6.
汉语自动分词与内容分析法研究   总被引:9,自引:0,他引:9  
汉语自动分词是计算机中文信息处理中的难题,也是文献内容分析中必须解决的关键问题之一。本文通过对已有自动分词方法及其应用研究的分析,指出了今后汉语自动分词研究的三个发展方向:克服汉语文本切分中的困难,继续研究传统文本切分的有效方法;将人工智能技术与汉语自动分词技术有机结合起来;改造汉语文本书写规则使之利于计算机切分。并分析了汉语自动分词和内容分析法之间的密切关系,以及汉语自动分词对内容分析法的影响  相似文献   

7.
汉语分词技术综述   总被引:2,自引:1,他引:1  
首先介绍了汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述了汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行了分析,提出了发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行了预测。  相似文献   

8.
中文文本关键词自动抽取方法研究   总被引:6,自引:1,他引:5  
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.  相似文献   

9.
基于词索引的中文全文检索关键技术及其发展方向   总被引:2,自引:0,他引:2       下载免费PDF全文
基于词索引的中文全文检索的研究是一个涉及到多个领域的综合性课题。汉语自动分词的精度和速度、词索引数据库的结构、词汇控制技术、检索匹配机制等是影响中文全文检索效果的关键因素。目前基于词索引的中文全文检索技术还在分词技术、网络信息标引的准确率、查全率、查准率以及查询方式上存在局限。未来的中文全文检索将最终在语义、语用、语境层次上实现智能化的信息检索。  相似文献   

10.
汉语自动分词研究的现状与新思维   总被引:17,自引:2,他引:15  
汉语自动分词是机器翻译、文献标引、智能检索、自然语言理解与处理的基础。本文对十余年来的汉语自动分词的研究方法与成果进行了综合论述, 分析了现有分词方法的特点, 提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的新思维。  相似文献   

11.
汉语分词对中文搜索引擎检索性能的影响   总被引:3,自引:0,他引:3  
金澎  刘毅  王树梅 《情报学报》2006,25(1):21-24
针对中文网页的特点,研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用网页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。  相似文献   

12.
Applying Machine Learning to Text Segmentation for Information Retrieval   总被引:2,自引:0,他引:2  
We propose a self-supervised word segmentation technique for text segmentation in Chinese information retrieval. This method combines the advantages of traditional dictionary based, character based and mutual information based approaches, while overcoming many of their shortcomings. Experiments on TREC data show this method is promising. Our method is completely language independent and unsupervised, which provides a promising avenue for constructing accurate multi-lingual or cross-lingual information retrieval systems that are flexible and adaptive. We find that although the segmentation accuracy of self-supervised segmentation is not as high as some other segmentation methods, it is enough to give good retrieval performance. It is commonly believed that word segmentation accuracy is monotonically related to retrieval performance in Chinese information retrieval. However, for Chinese, we find that the relationship between segmentation and retrieval performance is in fact nonmonotonic; that is, at around 70% word segmentation accuracy an over-segmentation phenomenon begins to occur which leads to a reduction in information retrieval performance. We demonstrate this effect by presenting an empirical investigation of information retrieval on Chinese TREC data, using a wide variety of word segmentation algorithms with word segmentation accuracies ranging from 44% to 95%, including 70% word segmentation accuracy from our self-supervised word-segmentation approach. It appears that the main reason for the drop in retrieval performance is that correct compounds and collocations are preserved by accurate segmenters, while they are broken up by less accurate (but reasonable) segmenters, to a surprising advantage. This suggests that words themselves might be too broad a notion to conveniently capture the general semantic meaning of Chinese text. Our research suggests machine learning techniques can play an important role in building adaptable information retrieval systems and different evaluation standards for word segmentation should be given to different applications.  相似文献   

13.
针对传统的like通配符检索存在的问题,提出基于二元中文分词的高效率检索算法的思路、流程,给出核心算法代码;在消除重复词语、查全率、查准率、多字词检索等方面,与传统检索进行比较,各方面评测结果都优于传统检索;基于二元中文分词的高效率检索算法,简单、高效、容易实现,以期在信息系统的检索模块中得以利用,提高信息检索效率,减小信息搜索成本。  相似文献   

14.
针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。  相似文献   

15.
基于长度递减与串频统计的文本切分算法   总被引:5,自引:4,他引:5  
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。  相似文献   

16.
中文自动标引是图书馆学情报学界多年研究的问题并取得了一定成果,其在信息检索数据库研究领域不可或缺。随着全文检索和中文搜索引擎的盛行,中文信息处理有多个学科涉及。中文自动标引、全文检索和中文搜索引擎是什么关系有必要加以明确,以确定其在中文信息处理领域的地位。经探讨认为,全文检索利用了中文自动标引的各种方式,搜索引擎利用了全文检索,因此搜索引擎利用了中文自动标引。中文自动标引、全文检索及中文搜索引擎三者关系是中文自动标引被利用和在技术发展方面相互促进的关系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号