首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
Web搜索引擎与全文检索技术   总被引:6,自引:0,他引:6  
李玮  李利 《情报科学》2003,21(5):558-560
本文主要阐述了全文检索技术在Web搜索引擎中的应用。对国内Web搜索引擎的全文检索技术中的不足进行了分析和思考并提出解决办法,同时对web搜索引擎中的全文检索技术的发展提出了自己的观点。  相似文献   

2.
自然语言检索中的中文分词技术研究进展及应用   总被引:1,自引:0,他引:1  
何莘  王琬芜 《情报科学》2008,26(5):787-791
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。  相似文献   

3.
王武霞 《今日科苑》2006,(9):118-118
互连网上信息浩瀚无限,各种搜索引擎是人们获得信息常用的工具,但是它的可用性和易用性还有待进步提高。为了更有效的获得用自然语言提问的问题的答案,本文提出了运用中文分词技术在获取的搜索网页的基础上进行全文检索和进行问题答案匹配,获得对应的答案列表的一种实现方法  相似文献   

4.
王华栋  饶培伦 《情报科学》2007,25(1):108-112
中文分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要。本文回顾和整理了中文分词评估所依靠的理论依据,同时建立了一套完整的基于搜索引擎中文分词评估方法。这套评估方法涵盖了评估样本的提取、评估人员选取、评估标准的制定、以及评估流程的设置等各个方面。实例分析的结果表明此方法是行之有效的。在此基础上,作者进一步对实验评估的结果进行了深入讨论,并提出了提高评估效果的几条建议,包括如何考虑评估人员背景、取舍评估项目等。  相似文献   

5.
吉向东 《现代情报》2010,30(6):125-127
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。  相似文献   

6.
郑阳  莫建文 《大众科技》2012,14(4):20-23
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。  相似文献   

7.
对全文检索倒排表技术作了较细致的研究。对全文检索的基本原理和技术进行了深入的探讨。对中文分词方法作了重点研究和总结,并对词典分词法中的最大匹配法加以改进,使用C++设计了一个程序,真正实现了最大匹配法。  相似文献   

8.
赵新民 《现代情报》2002,22(5):98-100
基于中文信息处理的特殊性和复杂性,本文就中文搜索引擎中的若干中文信息处理技术进行了深入地探讨,对诸如中文分词、中文码制转换和中文全半角处理等方面提出了一种较为完整的解决方案。  相似文献   

9.
一种快速中文分词词典机制   总被引:3,自引:0,他引:3  
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率.  相似文献   

10.
本文首先简要介绍了 lucene 桌面搜索引擎技术现状,根据桌面搜索的的不足,提出了一种基于 Lucene 的中文搜索引擎设计方案.使用了中文的分词技术的正向最大般配算法解决 lucene 对中文分词存在不足  相似文献   

11.
垂直搜索引擎系统的设计与实现   总被引:1,自引:0,他引:1  
面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分词、文本分类等。并将分词和分类算法加入到Nutch中,实现了系统原型。实验证明,该系统主题相关度达到94%以上。  相似文献   

12.
基于Lucene的信息检索的研究与应用   总被引:6,自引:0,他引:6  
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。本文研究了Lucene和中文切分词技术,分析了Lucene的索引原理,实现了一个基于kene并支持中英文文档检索的应用实例。  相似文献   

13.
全文检索研究   总被引:11,自引:0,他引:11  
A new algorithm for automatic segmentation of Chinese word with the stop word list and post-controlled thesaurus, that has absorbed the ideas from the single-Chinese character method and the thesaurus method, is given. Based on this algorithm, a new full text retrieval mode is built.  相似文献   

14.
用户当前正在浏览的网页内容有助于说明用户的即时信息需求.在现有相关研究的基础上提出了一种基于上下文的Web即时信息检索方法,该方法允许用户从正在浏览的网页中选择一段文本作为原始检索条件,由检索系统从其上下文中提取一级扩展词和二级扩展词来形成新的检索条件进行检索,并将检索结果按相似度从大到小的顺序呈现给用户.  相似文献   

15.
单汉字索引是中文全文检索索引技术中一个主要方法,此方法在索引的空问和检索的效率方面都存在不足。本文引入单元词索引,并分析试验数据,表明引入单元词索引后,索引的空间效率和检索的时间效率均有提高。  相似文献   

16.
靖培栋  宋雯斐 《情报科学》2006,24(6):884-887
本文探讨了在基于关键词索引的中文全文检索系统中实现各种截词检索的方法,建立了关键词索引的Hash索引,这种方法即能节省内存又提高检索效率。  相似文献   

17.
[目的/意义] 在信息检索、科技论文评价和知识结构演化方面,引文分析都起着至关重要的作用。随着格式化全文数据库的出现,引文分析迈入了4.0时代——全文引文分析阶段。但是,目前还没有中文的格式化全文数据库,这极大地制约了全文引文分析在我国科技文献中的研究和应用。[方法/过程] 在本文中我们提出建立高效的中文全文引文分析依赖的数据集和检索平台的方法,主要包括:1)提出了基于规则和SVM分类方法的论文元数据和引用提取方法;2)提出基于Spark平台的实现高效引文内容分析标准化数据集生成方法;3)提出建立引用内容的科技文献检索平台。[结果/结论] 引文内容分析标准化数据集的建立将全面提升全文引文分析在我国科技领域中的研究效能,提高科技文献查找精度。  相似文献   

18.
试论搜索引擎的技术改进   总被引:4,自引:0,他引:4  
作为当前网络信息资源的重要检索工具 ,搜索引擎问世以来已得到广泛使用。作为一个新生事物 ,搜索引擎技术得到了快速发展 ,但同时也在广大网络用户的频繁使用中 ,逐渐暴露出其存在的各种各样的问题。本文主要从 3个不同方面探讨对搜索引擎进行技术改进的方法与思路。1 搜索引擎工作模式的改变众所周知 ,Web最初是作为欧洲粒子物理研究中心(CERN)内部的协作环境而诞生的 ,其分布式协作特性已成为全球信息共享的基础。但值得注意的是 ,基于Web的一些信息应用系统采用的却是传统的集中式处理模式 ,以致这种集中式处理与Web的分…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号