首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。通过垂直搜索引擎能够从互联网上自动搜集信息,并为用户提供信息服务。建设一个中文垂直搜索引擎大致需要以下技术:信息采集技术、网页信息抽取技术、中文分词技术、索引技术。  相似文献   

2.
垂直搜索引擎系统的设计与实现   总被引:1,自引:0,他引:1  
面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分词、文本分类等。并将分词和分类算法加入到Nutch中,实现了系统原型。实验证明,该系统主题相关度达到94%以上。  相似文献   

3.
为提高通用搜索引擎对医学学科及主题的覆盖率,在开源搜索框架Nutch平台上,通过构建医学词典,结合中文分词插件,构建了一个面向医学信息的垂直搜索引擎,并详细介绍了改进后的系统功能和体系结构。相对于通用搜索引擎,该改进提高了医学信息判别的准确度和效率,减少了搜索结果冗余,同时提高了系统对于互联网复杂环境的处理能力。  相似文献   

4.
垂直搜索引擎系统的研究与实现   总被引:2,自引:1,他引:1  
给出了垂直搜索引擎的体系结构,然后分别设计了垂直搜索引擎的三大核心模块:主题词库、网络机器人和中文分词。在主题词库模块中设计了一个分层的主题词库系统,该词库将颗粒大的主题词置于词库高层,而将颗粒小的主题词置于词库低层,既考虑了主题搜索的广度,也考虑了主题搜索的精度。而在网络机器人设计过程中则综合运用了多线程及基于VSM的主题相关度判断算法进行主题网页爬行,在中文分词设计中则采用最大正向匹配算法完成中文分词。实验表明,多线程是提高网络机器人爬行速度的关键。此外,搜索引擎的准确率达到了63%。  相似文献   

5.
随着搜索引擎应用的不断深入,人们对搜索引擎的个性化需求越来越多,对搜索结果的要求也越来越越高,如何实现高精准的垂直领域信息搜索和推荐是目前搜索领域所面临的难题。科研动态是科研工作者非常关心的信息,为提供更高效精准的科研动态信息,本文将基于半监督的分类方法用于科研动态信息的自动分类,用于科研动态搜索引擎系统,实现科研动态信息按用户需求精准搜索和推送,通过实例验证分类方法的有效性。  相似文献   

6.
网络信息的急剧膨胀使得通用搜索引擎暴露出诸多问题.如何让用户方便、快捷地找到自己需要的"深层次"信息,成为一个亟待解决的问题.针对上迷问题,在分析垂直搜索的特点及关键技术的基础上,提出了一种改进的基于VSM的垂直搜索检索模型及其性能评测方法,并给出了基于Agent垂直搜索引擎的系统架构及系统各部分的功能描述.  相似文献   

7.
刘俊熙  盛宇 《现代情报》2009,29(3):143-145
垂直搜索被普遍认为将是下个潜力市场,是搜索引擎的细分和延伸。是对某类网页资源和结构化资源的深度整合。本文综合分析了垂直搜索的特性,并从信息采集、信息索引和信息处理方面分析其同通用搜索引擎的差异,然后通过垂直搜索在电子政务上的强势进入的案例来分析其应用发站的特性。  相似文献   

8.
钟辉新 《情报杂志》2008,27(1):118-120
针对具体行业运用领域的需求,采用机器学习的方法对Web内容进行分析和挖掘并提供个性化服务是搜索引擎的一个重要发展趋势.从搜索引擎的通过原理出发,针对通用搜索引擎存在问题,构建基于垂直搜索引擎的个性化信息体系结构,结合用户共同兴趣模型与Hopfield Net Spider搜索策略实现用户个性化信息服务.  相似文献   

9.
本文首先简要介绍了 lucene 桌面搜索引擎技术现状,根据桌面搜索的的不足,提出了一种基于 Lucene 的中文搜索引擎设计方案.使用了中文的分词技术的正向最大般配算法解决 lucene 对中文分词存在不足  相似文献   

10.
王武霞 《今日科苑》2006,(9):118-118
互连网上信息浩瀚无限,各种搜索引擎是人们获得信息常用的工具,但是它的可用性和易用性还有待进步提高。为了更有效的获得用自然语言提问的问题的答案,本文提出了运用中文分词技术在获取的搜索网页的基础上进行全文检索和进行问题答案匹配,获得对应的答案列表的一种实现方法  相似文献   

11.
王华栋  饶培伦 《情报科学》2007,25(1):108-112
中文分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要。本文回顾和整理了中文分词评估所依靠的理论依据,同时建立了一套完整的基于搜索引擎中文分词评估方法。这套评估方法涵盖了评估样本的提取、评估人员选取、评估标准的制定、以及评估流程的设置等各个方面。实例分析的结果表明此方法是行之有效的。在此基础上,作者进一步对实验评估的结果进行了深入讨论,并提出了提高评估效果的几条建议,包括如何考虑评估人员背景、取舍评估项目等。  相似文献   

12.
为检索医院的药物信息,本文设计了一种基于Lucene的搜索引擎来收集信息的方法,通过在广州、珠海、武汉三家医院对所需信息进行查询,实现了对药物使用信息的索引、全文检索、高级查询、分词、相关性评分、排序等.引擎搜索结果与手工检索一致.本研究证明:医院内部的医药情报是可以用Lucene搜索引擎来获取的;关于医院药物供应是否充足等问题可依据搜索出的数据情报来回答.  相似文献   

13.
林文清 《情报杂志》2007,26(9):120-121
垂直搜索引擎在获取信息方面有着综合搜索引擎无法比拟的优势,在B2B领域中垂直搜索引擎开始成为搜索引擎发展的一个新趋势。研究了B2B垂直搜索引擎在信息获取技术中与其他搜索引擎的区别,探索了垂直搜索引擎在信息获取技术中应用的价值,并对B2B垂直搜索引擎在信息技术中的应用进行了展望。  相似文献   

14.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

15.
垂直搜索是针对某一个行业的专业搜索引擎;Lucene是Java编写的全文索引引擎工具包,可以跨平台使用;Heritri。是一个功能强大的开源Web网络爬虫。本文主要探讨Lucene和Heritrix在构建垂直搜索引擎中的应用。  相似文献   

16.
搜索引擎是互联网资源搜索的入口,搜索的快捷性、准确性是搜索引擎的核心竞争力,如何提高竞争力是业内企业的工作重点。已有的搜索引擎算法中,最具代表性的就是PageRank算法,针对该算法的改进方法也有很多,但效果并不很理想。分析了已有PageRank改进方法的不足,立足于用户搜索行为信息挖掘,采用时序关联分析方法,将关联比例作为权值加入到PageRank计算公式中,改变平均分配权威值的计算方法,从而得到了改进的PageRank算法——TCPR算法,使得搜索排序结果更符合用户的信息需求。  相似文献   

17.
针对传统的基于Web图的垂直搜索策略Authorities and Hubs,提出了一种融合了网页内容评价和Web图的启发式垂直搜索策略,此外,引入向量空间模型进行针对网页内容的主题相关度判断,进一步提高主题网页下载的准确率.实验表明,文中算法有效地提高了主题网页的聚合程度,且随着网页下载数量的增加,垂直搜索引擎的准确率逐渐递增,并在下载网页达到一定数量后,准确率趋于稳定,算法具有较好的鲁棒性,可以应用到相关垂直搜索引擎系统中.  相似文献   

18.
Web2.0环境下,信息质量良莠不齐,信源具有草根性和分散性,传统的检索策略已不能适应新环境下个性化的信息需求。本文从方法的角度,提出了充分利用垂直搜索引擎、使用搜索软件、使用信息门户和资源目录、使用网摘和移动书签、构建个人数字图书馆等新的信息检索策略,并用一些实例来说明新策略的应用。  相似文献   

19.
本文通过垂直搜索引擎的关键算法研究,论述垂直搜索引擎设计与实现时的一些独特的信息识别方法,包括Pagerank和HITS算法。  相似文献   

20.
余波  黎海波 《情报科学》2012,(4):633-636
即时通信、文本碎片化、信息频繁更新、社区化、漂移化等是Web2.0时代信息的显著特点,这对传统搜索引擎的工作方式带来了前所未有的挑战。信息的动态聚合和即时搜索应是网络搜索引擎未来发展的重要方向。文章探讨了即时搜索的基本特点、工作原理、体系结构等,并展望了即时搜索对未来搜索引擎的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号