首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 638 毫秒
1.
全文检索搜索引擎中文信息处理技术研究   总被引:2,自引:0,他引:2  
唐培丽  胡明  解飞  刘钢 《情报科学》2006,24(6):895-899,909
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。  相似文献   

2.
一种基于词典的中文分词法的设计与实现   总被引:1,自引:0,他引:1  
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。  相似文献   

3.
本文首先简要介绍了 lucene 桌面搜索引擎技术现状,根据桌面搜索的的不足,提出了一种基于 Lucene 的中文搜索引擎设计方案.使用了中文的分词技术的正向最大般配算法解决 lucene 对中文分词存在不足  相似文献   

4.
自然语言检索中的中文分词技术研究进展及应用   总被引:1,自引:0,他引:1  
何莘  王琬芜 《情报科学》2008,26(5):787-791
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。  相似文献   

5.
垂直搜索引擎系统的研究与实现   总被引:2,自引:1,他引:1  
给出了垂直搜索引擎的体系结构,然后分别设计了垂直搜索引擎的三大核心模块:主题词库、网络机器人和中文分词。在主题词库模块中设计了一个分层的主题词库系统,该词库将颗粒大的主题词置于词库高层,而将颗粒小的主题词置于词库低层,既考虑了主题搜索的广度,也考虑了主题搜索的精度。而在网络机器人设计过程中则综合运用了多线程及基于VSM的主题相关度判断算法进行主题网页爬行,在中文分词设计中则采用最大正向匹配算法完成中文分词。实验表明,多线程是提高网络机器人爬行速度的关键。此外,搜索引擎的准确率达到了63%。  相似文献   

6.
当今信息时代,互联网信息逐渐增多,中国网民人数随之增多,人们获取信息的方式中搜索引擎成为主要数据搜索的工具。面对浩瀚的信息资源,网民使用通用搜索引擎搜索时,返回的结果量十分庞大,使得想要找到自己需要的信息有时十分困难,针对某一领域的垂直搜索引擎能够解决这个问题。本文结合垂直搜索引擎的结构等特征,研究中文分词方法,比较分析目前较为流行的一些分词方法。  相似文献   

7.
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。通过垂直搜索引擎能够从互联网上自动搜集信息,并为用户提供信息服务。建设一个中文垂直搜索引擎大致需要以下技术:信息采集技术、网页信息抽取技术、中文分词技术、索引技术。  相似文献   

8.
赵新民 《现代情报》2002,22(5):98-100
基于中文信息处理的特殊性和复杂性,本文就中文搜索引擎中的若干中文信息处理技术进行了深入地探讨,对诸如中文分词、中文码制转换和中文全半角处理等方面提出了一种较为完整的解决方案。  相似文献   

9.
为提高通用搜索引擎对医学学科及主题的覆盖率,在开源搜索框架Nutch平台上,通过构建医学词典,结合中文分词插件,构建了一个面向医学信息的垂直搜索引擎,并详细介绍了改进后的系统功能和体系结构。相对于通用搜索引擎,该改进提高了医学信息判别的准确度和效率,减少了搜索结果冗余,同时提高了系统对于互联网复杂环境的处理能力。  相似文献   

10.
垂直搜索引擎系统的设计与实现   总被引:1,自引:0,他引:1  
面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分词、文本分类等。并将分词和分类算法加入到Nutch中,实现了系统原型。实验证明,该系统主题相关度达到94%以上。  相似文献   

11.
刘天娇  周瑛 《情报科学》2012,(8):1192-1195
以研究2001-2010年网络搜索引擎的研究发展动态,为该领域后续研究指明方向为目的。以2001-2010年10年为时间限制,通过对CNKI来源期刊有关"网络搜索引擎"的文章搜索出的386篇文章进行分析,并运用内容分析法以及SPSS统计软件,对发文数量,发文期刊分布及发文内容进行分析。经过实例的分析,得出自2001-2010年10年间,对网络搜索引擎的细分化研究论文数量开始多于其综合性研究论文的数量,近10年间对网络搜索引擎方面的研究开始呈现向纵深方向发展的趋势的结论。  相似文献   

12.
吉向东 《现代情报》2010,30(6):125-127
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。  相似文献   

13.
论提高中文搜索引擎质量的途径   总被引:11,自引:0,他引:11  
焦微玲 《情报科学》2002,20(1):100-102
随着网络信息数量的迅猛增长,搜索引擎的网络导航作用日益增强,然而搜索引擎自身也存在“信息过载”、“信息超量”的现象,如何克服上述现象,向用户提供数量适宜、质量优良的信息是目前迫切需要解决的问题。本文立足于本文搜索引擎,在分析了我国搜索引擎的发展状况和存在的问题之后,简单论述了可以提高中文搜索引擎质量的几条途径。  相似文献   

14.
模板处理在搜索引擎中的应用   总被引:1,自引:0,他引:1  
  相似文献   

15.
针对传统的基于韦布尔模型的恒虚警检测(CFAR)分割中误差大、精度低的缺点,提出了分割前对特定方向角样本进行垂直中值滤波、分割后采用区域生长滤波的改进方法.最后用区域间对比度和最终测量精度的分割评价准则,与传统CFAR分割和计数滤波的方法进行了比较.对运动和静止目标获取和识别(MSTAR)样本的实验结果表明,改进方法提高了分割精度,分割效果优于传统的CFAR分割方法.  相似文献   

16.
Stochastic simulation has been very effective in many domains but never applied to the WWW. This study is a premiere in using neural networks in stochastic simulation of the number of rejected Web pages per search query. The evaluation of the quality of search engines should involve not only the resulting set of Web pages but also an estimate of the rejected set of Web pages. The iterative radial basis functions (RBF) neural network developed by Meghabghab and Nasr [Iterative RBF neural networks as meta-models for stochastic simulations, in: Second International Conference on Intelligent Processing and Manufacturing of Materials, IPMM’99, Honolulu, Hawaii, 1999, pp. 729–734] was adapted to the actual evaluation of the number of rejected Web pages on four search engines, i.e., Yahoo, Alta Vista, Google, and Northern Light. Nine input variables were selected for the simulation: (1) precision, (2) overlap, (3) response time, (4) coverage, (5) update frequency, (6) boolean logic, (7) truncation, (8) word and multi-word searching, (9) portion of the Web pages indexed. Typical stochastic simulation meta-modeling uses regression models in response surface methods. RBF becomes a natural target for such an attempt because they use a family of surfaces each of which naturally divides an input space into two regions X+ and X− and the n patterns for testing will be assigned either class X+ or X−. This technique divides the resulting set of responses to a query into accepted and rejected Web pages. To test the hypothesis that the evaluation of any search engine query should involve an estimate of the number of rejected Web pages as part of the evaluation, RBF meta-model was trained on 937 examples from a set of 9000 different simulation runs on the nine different input variables. Results show that two of the variables can be eliminated which include: response time and portion of the Web indexed without affecting evaluation results. Results show that the number of rejected Web pages for a specific set of search queries on these four engines very high. Also a goodness measure of a search engine for a given set of queries can be designed which is a function of the coverage of the search engine and the normalized age of a new document in result set for the query. This study concludes that unless search engine designers address the issue of rejected Web pages, indexing, and crawling, the usage of the Web as a research tool for academic and educational purposes will stay hindered.  相似文献   

17.
The analysis of contextual information in search engine query logs enhances the understanding of Web users’ search patterns. Obtaining contextual information on Web search engine logs is a difficult task, since users submit few number of queries, and search multiple topics. Identification of topic changes within a search session is an important branch of search engine user behavior analysis. The purpose of this study is to investigate the properties of a specific topic identification methodology in detail, and to test its validity. The topic identification algorithm’s performance becomes doubtful in various cases. These cases are explored and the reasons underlying the inconsistent performance of automatic topic identification are investigated with statistical analysis and experimental design techniques.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号