首页 | 本学科首页   官方微博 | 高级检索  
     检索      

全文检索搜索引擎中文信息处理技术研究
引用本文:唐培丽,胡明,解飞,刘钢.全文检索搜索引擎中文信息处理技术研究[J].情报科学,2006,24(6):895-899,909.
作者姓名:唐培丽  胡明  解飞  刘钢
作者单位:1. 长春工业大学,计算机科学与工程学院,吉林,长春,130012
2. 武警吉林省总队,通信处,吉林,长春,130062
摘    要:本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。

关 键 词:全文检索  搜索引擎  中文分词  信息检索
文章编号:1007-7634(2006)06-895-05
收稿时间:2006-04-20
修稿时间:2006年4月20日

Research on the Chinese Information Processing Technique for Full- text Retrieval Search Engine
TANG Pei-li,HU Ming,XIE Fei,LIU Gang.Research on the Chinese Information Processing Technique for Full- text Retrieval Search Engine[J].Information Science,2006,24(6):895-899,909.
Authors:TANG Pei-li  HU Ming  XIE Fei  LIU Gang
Abstract:This paper analyses the key techniques of full - text retrieval Chinese search engine, and puts forward a Chinese word segmentation method suited to full - text retrieval search engine. It not only enhances the accuracy of word segmentation but also recognizes unknown words. For vector space information retrieval model, this paper gives a term weighting formula that takes into account the import information such as the position, length and frequency of Chinese word in the Web text. And it quantizes the importance of word and expresses the importance of term in the Web text. In the end, the given segmentation algorithm is tested, and the results show that the method can improve the accuracy of word segmentation and satisfy the applied requirement.
Keywords:full - text retrieval  search engine  Chinese word segmentation  information retrieval
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号