首页 | 本学科首页   官方微博 | 高级检索  
 共查询到20条相似文献,搜索用时 312 毫秒
如何查找隐形网页资源   总被引:2,自引:0,他引:2  
众所周知,互联网是各类信息的存储器,是一本包罗万象的百科全书。为了使每一个用户都能更有效地获取其所需要的信息,大量的搜索引擎在网上涌现,其中包括Google、Yahoo、Infoseek等。一般来说,这些搜索引擎用URL和关键词来标引和存储其数据库中的网页,当用户提出查询请求时,搜索引擎首先根据数据库中所存储的网页的URL来搜索网页,并返回相关的结果。然而,这些搜索引擎并不能搜索互联网上的所有信息。最近人们注意到一种叫"invisibleweb"的网页,这种网页又被称为"deep"或隐形网页。简单地说,就是那些因为各种原因不能被普通搜索引擎如Google、Yahoo等搜索到的网页。据  相似文献   

网络搜索的个性化服务   总被引:8,自引:0,他引:8  
所谓个性化搜索服务,既是一种个性化服务,又是一种信息服务,它能够满足用户的个体信息需求,通过长期观察用户的搜索行为,从中识别用户的信息需求偏好,并且能够根据用户对搜索结果的评价,自觉调整搜索策略,使得对于同一检索请求,不同用户能够得到最贴近自已需要的信息。目前一些搜索引擎已经开始提供简单的个性化Web搜索服务,希望以此来吸引更多网民的注意。个性化搜索服务是个性化Web信息服务的一个方面,它可以帮助用户更快、更准确地找到所需信息,还可以避免无关信息的干扰。一、个性化搜索引擎的框架模型个性化搜索引擎通用框架一般包含…  相似文献   

信息搜索用户的学习交互是包含用户-搜索系统交互、用户-搜索引擎结果页面交互、用户-搜索内容交互、用户-其他用户交互等维度的综合概念体系。协同搜索情境则进一步增加了用户学习交互的复杂性。文章设计一项信息搜索实验,以探究不同社交关系类型和协作效能水平对协同搜索用户学习交互的影响,为理解信息搜索用户的协作学习机制奠定基础;使用双因素方差分析法、Mann-Whitney U非参数检验与质性分析法,综合分析实验当中产生的数据。研究发现:社交关系类型不能对协同搜索用户的学习交互产生影响;协作效能对协同搜索用户的网页链接深度、知识讨论次数和知识共享次数具有主效应;社交关系类型与协作效能对用户的网页平均浏览时间具有交互作用:高协作效能水平下,朋友组的网页平均浏览时间多于陌生人组,低协作效能水平下,陌生人组的网页平均浏览时间多于朋友组。相关研究结论能够激励信息搜索用户对协作学习的重视,并为支持良好学习体验的协作信息检索系统的设计提供借鉴。  相似文献   

搜索引擎用户点击行为分析   总被引:9,自引:3,他引:9  
王继民  彭波 《情报学报》2006,25(2):154-162
基于大规模分布式搜索引擎系统———北大“天网”的用户点击记录,本文研究发现:用户点击不同URL的数量遵从Heaps定律,点击URL的频度频级服从类Zipf分布,点击URL与页面大小相关,点击URL具有时间局部性,其顺序具有自相似性特征等一些具有普适性的规律。提出了利用点击日志确定相近查询词的一个新的有效算法。这些研究结果对于掌握用户的搜索行为,完善搜索引擎系统的设计,提高检索服务的效率和质量具有重要的意义。  相似文献   

本文对现阶段中文搜索引擎的两种主要搜索方式:目录式搜索(即分类搜索)与关键词搜索分别进行了介绍和分析,以网易搜索引擎为例阐述了网站信息标引的三种方式,并分析了网易搜索引擎特色及问题,国内搜索引擎发展前景的问题。 现阶段网络搜索引擎有两种主要搜索方式:目录式搜索(即分类搜索)与关键词搜索 目前因特网上的搜索引擎很明显地可分为两大类,一类是自由词或关键词检索搜索引擎(国外称之为索引搜索引擎Indexing),另一类是分类搜索引擎,即通过分类浏览来查询信息,(国外称之为目录服务Director Service)。 当然这两类搜索引擎的功能是互相借鉴和渗透的。目前的搜索引擎,尤其是中文搜索引擎有互相融合的趋势,关键词搜索引擎与分类搜索引擎通常是我中有你,你中有我,国内的关键词搜索引擎大多又建有一个分类库。一般来讲,我们将由网上机器人(Spider或Robot)自动收集网页建库,而检索又以全文检索为主的搜索引擎归入关键词搜索引擎,而将主要由人工维护建库,以分类导航或分类摘要查询为主的搜索引擎归入分类搜索引擎。以下将按关键词搜索引擎与目录式(分类)搜索引擎两大类型来分别进行一些分析。  相似文献   

搜索引擎Robot技术实现的原理分析   总被引:7,自引:0,他引:7  
搜索引擎是从WWW上快速而有效地获取信息资源的捷径,而Robot技术则是搜索引擎中技术的关键。本文首先从搜索引敬的种类和组成出发,对搜索引擎的内部运行机制有个初步的了解,然后详细分析了Robot技术实现的功能,搜索的策略,设计中应注意的问题以及在网站中如何拒绝Robot的访问。  相似文献   

Google搜索引擎技术实现探究   总被引:4,自引:0,他引:4  
从技术的角度剖析了 Google搜索引擎的体系结构与工作过程 ,详细介绍了基于 Robot的网页搜索、标引入库和检索引擎三大模块 ,统计了 Google的技术数据 ,并分析了 Google的技术实现特点 ,解释了 Google检索的种种现象。  相似文献   

针对通用搜索引擎存在搜索不够快速、不够深入、不够准确的缺点,本文设计并实现了旅游信息搜索网络蜘蛛,给出了该网络蜘蛛对旅游网页的主题相关度进行预测和判断的算法.该算法保证了网络蜘蛛只采集旅游主题相关的网页,使得垂直搜索引擎在查询的准确率和效率上都有显著地提高.最后通过实现一个旅游信息垂直搜索系统,给出了其信息搜集模块、信息处理模块和信息搜索模块的设计与实现.  相似文献   

黄倩 《情报学报》2005,24(6):713-717
Internet的发展使互联网成为一个巨大的信息库,但是信息的获取质量却停滞不前。传统的搜索引擎大都基于关键字机械匹配,因而不具备理解文档内容的能力,导致查询效率普遍不高。由于计算机可以理解RDF描述和携带的元数据的含义,因此可以做到基于内容的精确检索。为此,本文提出一种基于RDF的科技论文搜索引擎的设计与实现方案。该方案包括含词汇集设计、RDF描述生成工具、运行于服务器端的RDF描述信息收集和解析程序、基于词汇集的查询四个模块。查询结果为搜索网页的元数据显示,从而使用户对查询结果有准确的了解,可大大提高用户的搜索效率。  相似文献   

科学搜索引擎Scirus研究   总被引:7,自引:0,他引:7  
科学搜索引擎Scirus是一种针对科学的、专业领域信息的搜索引擎。它帮助人们从浩如烟海的网络信息中准确快速地获得所需要的科学信息。Scirus凭着优秀的搜索表现,连续三年被“搜索引擎观察”评为最佳专业搜索引擎。本文介绍了Scirus的一些基本情况,并以《Scirus白皮书》为基础,研究Scirus如何能够准确地搜索到用户所需要的信息。  相似文献   

我国省级公共图书馆网站搜索引擎优化调查分析   总被引:1,自引:0,他引:1  
采用直接访问和借助工具查询的调研方式,对全国31个省级公共图书馆网站的首页URL、域名年龄、标题标签、描述和关键词标签、网站流量统计、百度快照日期、谷歌PR值、百度收录、反链数量的搜索引擎优化建设和实施效果情况进行数据统计及研究分析,并从标题标签、描述和关键词标签、网站结构和外部链接4个方面提出相应的优化建议.  相似文献   

[目的/意义] 搜索引擎是用户访问网络资源的重要入口,识别用户搜索策略有助于发现用户搜索的认知规律,让搜索引擎更好地理解用户搜索。[方法/过程] 采用Microsoft顺序分析与聚类分析算法对用户搜索日志中的搜索时间进行分析,识别用户利用搜索引擎时普遍采用的搜索策略,并概括不同类型搜索策略的特征。[结果/结论] 用户在搜索中存在“快速消费”策略、“试探”策略、“探索”策略和“终止与确认”策略,不同策略在搜索时间、浏览次数、用户认知过程等方面表现出明显的差异。  相似文献   

The infrastructure of a typical search engine can be used to calculate and resolve persistent document identifiers: a string that can uniquely identify and locate a document on the Internet without reference to its original location (URL). Bookmarking a document using such an identifier allows its retrieval even if the document's URL, and, in many cases, its contents change. Web client applications can offer facilities for users to bookmark a page by reference to a search engine and the persistent identifier instead of the original URL. The identifiers are calculated using a global Internet term index; a document's unique identifier consists of a word or word combination that occurs uniquely in the specific document. We use a genetic algorithm to locate a minimal unique document identifier: the shortest word or word combination that will locate the document. We tested our approach by implementing tools for indexing a document collection, calculating the persistent identifiers, performing queries, and distributing the computation and storage load among many computers.  相似文献   

论文从文字代码、图像、布局排版、搜索引擎、数据库等5个方面着手,对图书馆主页加速技术进行研究,并指出了加速与优化图书馆主页的一系列方法。  相似文献   

面向主题的个人实时搜索引擎的设计与实现   总被引:2,自引:0,他引:2  
介绍一种专为个人用户量身订做的搜索引擎,它使用启发式实时搜索算法,为用户提供最新的主题相关信息。该系统能够结合用户需求,很好地解决综合性搜索引擎中普遍存在的主题固化、信息滞后等问题,同时为搜索引擎的个人化提供理论和实践依据。  相似文献   

随着互联网络的发展,网上的资源越来越多,各开放式的数据库也不断出现,为使用户能更好地使用网络资源,有几百个搜索引擎在Internet上服务于用户。然而,搜索引擎只能实现对页面的搜索,不能实现对数据库内部的搜索,而后者又是目前人们关注的问题。另外,Internet的用户遍布全世界,所使用的语言各不相同,实现对多语种数据的检索亦是IT界人士研究的问题。本文以中草药数据为基础,通过建立一个多语种的词表实现多语种的检索,以及建立一套URL命令集实现了对多个风格不同的数据库进行检索、连接的问题。  相似文献   

智能搜索引擎信息过滤机制研究   总被引:3,自引:0,他引:3  
智能搜索引擎是人工智能技术和传统搜索引擎技术相结合的产物。面对信息无时无刻不在进行更替的网络环境,智能搜索引擎具有自然语言过滤智能化、多文档处理智能化、用户服务智能化等信息处理机制。为促进智能搜索引擎发展,应重视用户建模技术研究,加强基于多Agent智能搜索引擎系统的研制与实践,加大智能搜索引擎关键技术研究力度。  相似文献   

It is known that users of internet search engines often enter queries with misspellings in one or more search terms. Several web search engines make suggestions for correcting misspelled words, but the methods used are proprietary and unpublished to our knowledge. Here we describe the methodology we have developed to perform spelling correction for the PubMed search engine. Our approach is based on the noisy channel model for spelling correction and makes use of statistics harvested from user logs to estimate the probabilities of different types of edits that lead to misspellings. The unique problems encountered in correcting search engine queries are discussed and our solutions are outlined.  相似文献   

Most current machine learning methods for building search engines are based on the assumption that there is a target evaluation metric that evaluates the quality of the search engine with respect to an end user and the engine should be trained to optimize for that metric. Treating the target evaluation metric as a given, many different approaches (e.g. LambdaRank, SoftRank, RankingSVM, etc.) have been proposed to develop methods for optimizing for retrieval metrics. Target metrics used in optimization act as bottlenecks that summarize the training data and it is known that some evaluation metrics are more informative than others. In this paper, we consider the effect of the target evaluation metric on learning to rank. In particular, we question the current assumption that retrieval systems should be designed to directly optimize for a metric that is assumed to evaluate user satisfaction. We show that even if user satisfaction can be measured by a metric X, optimizing the engine on a training set for a more informative metric Y may result in a better test performance according to X (as compared to optimizing the engine directly for X on the training set). We analyze the situations as to when there is a significant difference in the two cases in terms of the amount of available training data and the number of dimensions of the feature space.  相似文献   

The internet is an important source of medical knowledge for everyone, from laypeople to medical professionals. We investigate how these two extremes, in terms of user groups, have distinct needs and exhibit significantly different search behaviour. We make use of query logs in order to study various aspects of these two kinds of users. The logs from America Online, Health on the Net, Turning Research Into Practice and American Roentgen Ray Society (ARRS) GoldMiner were divided into three sets: (1) laypeople, (2) medical professionals (such as physicians or nurses) searching for health content and (3) users not seeking health advice. Several analyses are made focusing on discovering how users search and what they are most interested in. One possible outcome of our analysis is a classifier to infer user expertise, which was built. We show the results and analyse the feature set used to infer expertise. We conclude that medical experts are more persistent, interacting more with the search engine. Also, our study reveals that, conversely to what is stated in much of the literature, the main focus of users, both laypeople and professionals, is on disease rather than symptoms. The results of this article, especially through the classifier built, could be used to detect specific user groups and then adapt search results to the user group.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号