首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 671 毫秒
1.
[目的/意义]了解、分析和识别用户学术搜索时所表达的信息需求是优化查询结果、提高学术搜索引擎用户体验的首要步骤,而用户进行学术搜索时通过查询表达式所表达的用户表意信息需求及潜在信息需求可称之为学术查询意图。本文总结学术查询意图类目体系有助于学术查询意图识别和检索结果页面的呈现。[方法/过程]在A.Broder的查询意图类目体系的基础上,结合百度学术搜索查询日志中查询表达式实例,构建学术查询意图的类目体系。以此为基础,总结不同类别的学术查询意图,并分析不同类别学术查询意图下查询表达式的特点。[结果/结论]学术查询意图主要分为学术文献类、学术实体类、学术探索类、知识问答类和非学术文献类五大类;得出不同类别学术查询意图在学术搜索中的大致比例;给出每类学术查询意图的查询表达式特征、查询情景和查询结果页。  相似文献   

2.
基于中文词义概念的Web信息分类检索研究   总被引:2,自引:0,他引:2  
通过领域范畴索引构建网上中文信息分类检索的语义环境,使主题检索受控于范畴分类,并在此基础上研究了一种新型的Web信息分类检索方法,并证明概念词检索定位在主题类目下其查准率有进一步的提高。该研究应用于多种搜索引擎查找以不同类目归类的同一内容信息时,在类目名称与实际内容不一致情况下用户也能在同一类目下找到相关内容的信息。  相似文献   

3.
查询意图研究综述   总被引:1,自引:1,他引:0  
近年来,学界对查询意图进行了广泛探讨,一些重要国际会议如SIGIR,WWW等越来越重视查询意图的相关研究,其研究点主要集中在给定分类体系下的查询意图识别,内容涉及查询意图类目体系构建、特征识别、分类方法以及数据集与评价方法。研究发现当前查询意图研究面临如下问题和挑战:缺乏权威的评测标准,各种分类方法在大规模查询集合上的性能还不确定,有效提取或者获得查询特征的方法仍然值得深入研究,查询意图分类体系的完备性和类别间独立不相关性尚不确定。  相似文献   

4.
严海兵  崔志明 《情报学报》2007,26(3):361-365
基于关键字匹配的搜索引擎排序网页时仅仅考虑评价网页的重要性,而忽视分类;基于分类目录的搜索引擎很难动态分析Web信息。本文在分析它们不足的前提下,提出利用模糊聚类的方法对搜索引擎的检索结果进行动态分类,依据超链分析算法PageRank和Web文档隶属度相结合进行分类排序,并给出具有调节值的结合公式。实验证明,该算法能够更有效地满足用户的需要,提高检索效率。  相似文献   

5.
[目的/意义]从民众信息需求与信息服务的视角提出政府信息公开效果的评价方法,丰富情报学在政府信息评价中的应用研究。[方法/过程]选取教育、住房、医疗等12个民生相关领域的生活事件,通过不同角度的查询语句模拟人们对上述事件的信息需求。定义匹配率、可见度、覆盖率以及查询平均有效网页数等指标来衡量政府网站公开的信息符合人们需求的情况。结合检索系统和人工筛选共同判断哪些网页符合人们的信息需求。采用全国35个城市政府网站的227万网页数据进行评价实验,评价指标兼顾对内容层面的相关性和评价可操作性的考虑。[结果/结论]本文将信息公开视为政府向民众提供的一种信息服务,根据公开内容所能满足的民众信息需求定义评价指标,衡量信息公开的实际效果。并通过对35个城市政府网站进行不同维度的指标计算得到评价结果,检验了该方法在政府信息公开实际效果评价上的可操作性。  相似文献   

6.
[目的/意义] 微信、微博等自媒体中隐含着大量的用户旅游消费需求的信息,将这些信息进行分类并依据分类结果构建需求本体,从而帮助企业分析和研究用户需求以获取巨大的商业价值。[方法/过程] 利用SVM分类算法将微博信息分类并生成分类结果集,这些结果集中包含大量旅游相关概念的词汇,可以作为构建和扩展旅游需求本体的语料;然后通过调查各大旅游网站的类目确定旅游需求的核心概念,抽取分类结果中与旅游相关的概念。[结果/结论] 利用抽取结果匹配核心概念,生成扩展后的本体,使用HOZO本体编辑工具进行修改和完善,并呈现部分旅游需求本体。从实验结果看,本文所提方法能较为准确地对包含旅游需求的文本进行分类。  相似文献   

7.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

8.
田创  赵亚娟 《图书情报工作》2016,60(20):123-131
[目的/意义] 提出一种基于相似度的专利与产业类目映射模型,模型拥有准确、易扩展和高效率的优点,可为后续研究提供借鉴和参考。[方法/过程] 整理现有专利与产业类目映射方法,以《国际专利分类》与《国民经济行业分类》为例,设计类目映射模型并做映射实验,通过Z-score标准化方法处理余弦相似度结果,完成《国际专利分类》小类与《国民经济行业分类》小类的部分映射,并根据国家知识产权局的试用版本对照成果综合评价本模型。[结果/结论] 模型综合考虑专利官方注释规范精炼性和大量专利数据覆盖面广的优点,通过自然语言处理技术自动化得到专利与产业类目的映射组合,较现有方法在节省大量人力成本的同时保证了正确率,并可方便地进行映射类目细粒度的调整,适用于其他符合本模型数据格式要求的专利与产业分类的映射。  相似文献   

9.
探讨了搜索引擎分类体系的理论基础,对搜索引擎中常用的几种传统文献组织方法进行了介绍,对国内外七大搜索引擎信息资源分类体系进行了分析比较。提出构建理想的搜索引擎分类体系的分类方法是等级式主题分类法,并对类目的设置及类目注释的设置进行了规划。  相似文献   

10.
[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取"关键词类"特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。  相似文献   

11.
文章旨在探讨查询分类技术和跨语言检索技术的关系,前者的应用能否改善后者的系统性能是核心问题。首先提出一种基于查询分类的标准化折扣累积增量评价指标,通过对采用查询分类技术前后信息检索系统的标准化折扣累积增量评价指标的变化进行判断,来检验该评价指标的可用性和有效性。同时,查询分类可以作为降低跨语言检索系统查询翻译的歧义性的技术手段。对大规模查询集随机抽样的查询翻译实验结果表明,本文提出的基于查询分类的查询翻译消歧方法对大部分查询有效,在一些情况下甚至可以直接通过本方法完成查询翻译。结合其他方法进一步消除翻译的歧义性则是下一步的工作内容。  相似文献   

12.
书目分类导航系统的快速实现   总被引:1,自引:0,他引:1  
在联机书目检索系统中,面对分类检索功能日趋弱化的现状,指出“提问式”分类号检索模式限制着分类法检索功能的发挥,分类检索必须从“提问式”向“浏览式”转变。在此基础上,结合用户联机检索特点,设计出基于《中国图书馆分类法》树型结构的书目分类导航系统,并详细描述系统的功能、体系结构、开发技术和实现方法。  相似文献   

13.
王颖  张智雄  孙辉  雷枫 《图书情报工作》2015,59(16):119-128
[目的/意义]构建国史知识检索平台,提高用户获取国史知识的效率,促进国史宣传和教育。[方法/过程]提出基于本体的国史知识检索平台构建思路与总体框架,在构建国史本体知识库的基础上,采用Neo4j数据库作为RDF数据仓储,创建基于Solr的实例索引、三元组索引和词条索引,针对多种检索需求设计实现检索引擎的执行流程、检索式构造方法以及查询处理算法,并为国史知识展示设计可视化实现方式。[结果/结论]构建国史知识检索平台,提供实体检索、查询问答、关联检索、时序检索及语义资源浏览等检索与浏览服务。该平台框架及关键技术实现方案可为面向领域知识的深度检索服务提供重要参考。  相似文献   

14.
[目的/意义] 针对当前查询扩展技术面临的瓶颈,提出一种关联数据驱动的查询扩展方法,改善检索系统的查全率、查准率。[方法/过程] 将扩散激活理论应用到关联数据集中,使得在输入查询词搜索潜在语义实体时,对提取的查询词的语义特征在知识库中进行有特定机制的扩散和激活,最后对这些语义关联的候补概念进行收集,并利用推理机制进行筛选,得到更优的概念集。[结果/结论] 该方法能有效提高检索系统的查全率、查准率,证明了本文提出的技术的可行性、有效性。  相似文献   

15.
[目的/意义] 构建一个基于多语言本体的跨语言信息检索模型,有助于用户通过该模型使用自己熟悉的语言来获取不同语种的信息资源。[方法/过程] 通过本体设计及检索模型功能模块设计建立一个基于数字出版领域本体的中英跨语言信息检索模型,并利用Java语言及Lucene搜索引擎架构对该模型进行编程实现。[结果/结论] 多语言领域本体具有明确、形式化、共享、概念化、结构清晰等特征,可以作为语义层应用于跨语言信息检索系统之中,实现信息资源的语义表达。经测试,本文构建的模型能够较好地实现分词、查询扩展和语义关联等功能,促进跨语言信息检索向语义层次发展。  相似文献   

16.
沈敏  杨新涯  王楷 《图书情报工作》2015,59(11):143-148
[目的/意义] 针对大数据环境下高校图书馆检索系统的信息超载问题, 提出一种机器学习方法, 为用户提供个性化的偏好检索服务。[方法/过程] 通过提取用户检索行为大数据中的用户特征, 利用监督机器学习方法, 在线学习可随用户偏好同步变化的自适应检索模型, 预测用户对文献的选择概率, 优化检索结果的排序。[结果/结论] 设计出用户偏好检索原型系统, 介绍用户偏好检索系统工作流程, 对比分析系统效果, 并对系统进行客观评价。  相似文献   

17.
This paper describes features and methods for document image comparison and classification at the spatial layout level. The methods are useful for visual similarity based document retrieval as well as fast algorithms for initial document type classification without OCR. A novel feature set called interval encoding is introduced to capture elements of spatial layout. This feature set encodes region layout information in fixed-length vectors by capturing structural characteristics of the image. These fixed-length vectors are then compared to each other through a Manhattan distance computation for fast page layout comparison. The paper describes experiments and results to rank-order a set of document pages in terms of their layout similarity to a test document. We also demonstrate the usefulness of the features derived from interval coding in a hidden Markov model based page layout classification system that is trainable and extendible. The methods described in the paper can be used in various document retrieval tasks including visual similarity based retrieval, categorization and information extraction.  相似文献   

18.
基于用户相关反馈的带结构语义的XML查询词扩展   总被引:1,自引:0,他引:1  
在XML文档的信息检索中,检索质量不高的一个主要原因是用户难以提出准确描述其查询意图的查询表达式,而查询扩展技术被认为是可以帮助用户构建符合其查询意图的查询表达式.本文在XML信息检索中提出了基于用户相关反馈的查询扩展技术,在查询扩展中除了考虑词频因素外还充分考虑了XML文档的结构特点对于扩展查询词选取的影响,包括文档中元素的语义权重、元素所在层次和词项与初始查询词间的距离因素对于扩展查询词选取的影响.实验证明本方法是可行的,且能较好地提高检索结果的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号