首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
俞琰  赵乃瑄 《图书情报工作》2018,62(11):120-126
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。  相似文献   

2.
二元语义信息检索模型*   总被引:1,自引:0,他引:1  
提出一个基于二元语义的信息检索模型。该模型包含文档的表示、查询语句的表示、文档和查询的匹配3个部分。相对于传统的基于查询关键词精确匹配的信息检索模型,该模型能较好地满足用户查询要求中的灵活性。  相似文献   

3.
文献主题标引常见错误分析   总被引:4,自引:0,他引:4  
目前我国图书馆使用最广泛的主题词表是<汉语主题词表>.准确地说,这种用词表进行标引的方法我们称为叙词法,它的特点是用经过规范的自然语言中的词语作为标引和检索文献的标识.  相似文献   

4.
一个构造良好的查询是信息检索质量的基本保证,语义查询扩展技术解决了传统信息检索系统不能很好理解用户查询意图的问题,在提高检索查全率的同时保证了检索准确率。本文以查询关键字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,以WordNet本体库和WordNet Domains扩展库作为消歧数据源,使用基于局部上下文和基于图论的两类无导词义消歧方法进行查询关键字到本体概念的映射,最后基于概念词汇关联完成基于语义的查询扩展。综合WordNet本体库和WordNet Domains扩展库中的各项知识源对查询词义进行判定,保证了词义消歧的精度;采用无导词义消歧实现查询词义的快速判定,保证了信息检索的实时性;根据查询关键词的多寡分别提出两类消歧方法,满足了各种查询需求。  相似文献   

5.
问答式信息检索是新一代搜索引擎,它接收自然语言描述的问题,在文档集合中搜索并返回问题的精确答案.问答式信息检索中,检索模块性能的提高将直接影响问题回答系统的整体性能.本文研究系统中的查询优化技术,包括两种策略:基于模式知识库的查询优化;挖掘Web语义蕴含信息,构建查询扩展资源.本文利用TREC提供的问题集与答案集(TREC8-TREC13)做实验来测试查询优化方法的性能,实验结果表明,相对于传统的查询生成,本文采用的查询优化技术在检索精度上取得了提高,t-test结果证明,系统性能提高统计显著.  相似文献   

6.
在文本分析与信息检索领域,方法上一个主要的问题就是,如果分析并构建文本的语义表示,提升文本分类及检索的性能;应用上关注的主要就是垂直领域的信息检索系统,诸如网络环境下的图书检索与推荐,以及生物医学文献检索与问答等。这里,社会图书搜索与推荐是指,利用搜索引擎和信息推荐技术,对社交媒体和互联网环境中的海量图书进行有效的分析和检索,并针对用户的语义查询和图书的社会信息,给出精确的推荐与建议。生物医学文献检索与问答是指针对生物医学领域专家标定的自然语言描述问题,利用信息检索与自然语言处理技术,对海量生物医学文献库进行检索和定位,找到可以与提出问题相关联的文献以及相关的句子,为生成准确的答案提供理论基础。  相似文献   

7.
万维网信息检索客户端处理技术   总被引:8,自引:0,他引:8  
何骥  张惠惠  刁倩 《情报学报》1999,18(3):www94
传统的基于分类和关键词的检索方式难以满足万维网上高质量的检索需求。本文就如何提高万维网信息检索的质量,探讨在检索客户端的处理技术,包括自然语言理解、查询扩展、查询域修整、群集检索以及智能检索代理等。文中还提出了综合运用这些技术的一个万维网信息智能检索系统的原型。  相似文献   

8.
TimeML是在自然语言文本中标注事件和时间表达的一种规范语言。本文介绍了TimeML标准及其语料库 TimeBank,从其起源英文文本事件时间表达标注开始,分析TimeML在文本时间关系解析研究中的发展,并探讨了 TimeML在汉语文本时间关系解析研究中的应用。  相似文献   

9.
分析文本中词语关联规律对于解决信息检索与文本语义研究中许多问题具有重要的价值和意义。首先建立测试平台,对词对语义与构成词对的两词在文本中语义的相符性进行人工判断,然后依据两词语在文本中所处位置差异、文本类型、分句长度、词频等标准,对数据进行分组统计和聚类分析得出两词在文本中的关联规律,最后指出不足及下一步研究的方向。  相似文献   

10.
一、档案信息检索中的本体方法 目前的档案信息检索主要借助于关键词或分类标识。由于关键词使用自然语言,不能反映语义之间的关系.也不能与相关概念建立准确的对应关系,其查询结果可能产生大量毫无相关的信息,又可能丢失重要的信息。当我们在互联网搜索引擎上用关键词检索档案信息时就会发现,真正需要的信息被淹没在大量的无关信息之中,  相似文献   

11.
张敏 《晋图学刊》2008,(3):10-12
参考馆员(reference librarian)与学科馆员(subject librarian)是图书馆读者服务中的两个专有名词,他们的职责都是为用户提供信息咨询服务,二者既有区别又有联系。本文试从他们的历史发展、涵义以及服务对象、方式、内容、模式、素质能力要求等方面来阐述两者的异同与关系。  相似文献   

12.
基于引文内容分析的引用情感识别研究   总被引:1,自引:0,他引:1  
[目的/意义]针对自动识别论文引用情感问题,提出一种基于引文内容分析的识别方法并进行可视化展示,克服基于简单引用频次计量无法区分不同引用情感的问题。[方法/过程]首先,利用正则表达式抽取出论文全文中的引文内容信息;然后,利用TF-IDF算法筛选出引用情感特征词,结合情感词典,利用情感分析技术对引文内容进行引用情感识别;最后,利用可视化工具展示出引用情感整体分布情况。[结果/结论]该方法能够有效识别出抗衰老领域论文数据集中引用情感情况。实验结果显示,该领域正面引用占总引用次数的21%,中立引用占总引用次数的78%,负面引用仅占总引用次数的1%。与传统引文网络相比较,基于引用情感的可视化图谱可以有效识别出不同引用情感在整体数据集合上的分布情况。  相似文献   

13.
以《医学信息学杂志》和《中华医学图书情报杂志》刊载论文的关键词为研究对象,通过高频关键词共词聚类分析方法对近30年不同年代我国医学信息学研究热点进行比较分析。结果表明,1990年及之前11年的研究热点是医学情报工作、医学图书馆工作、医学期刊和文献检索;1991—2000年10年间研究热点集中在医学科技查新和医学文献检索方面,医学情报工作研究热点弱化;2001年之后的研究热点呈现网络化、数字化、计量化、个性化特点,医学信息理论与方法研究缺失,亟待未来强化研究。  相似文献   

14.
本文尝试分析在非相关文献知识发现中,标题对文摘的替代效果,标题和MeSH提供的信息内容与文摘提供的信息内容的近似度,标题与文摘提供的信息内容与MeSH字段提供的信息内容的近似度.通过统计各字段所有词的词频,从高频词的数量、分布及变化趋势等定量的方面,以及具体高频词和语义类型等定性方面对各字段进行对比分析.结果表明标题对文摘有很好的替代效果,标题与MeSH结合对文摘的替代效果较标题与文摘结合对MeSH的替代效果要好.  相似文献   

15.
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。  相似文献   

16.
17.
基于词频信息确定叙词表概念属性   总被引:2,自引:1,他引:1  
认为为了提高叙词表的实用性,在叙词表编制和应用中,需要充分发挥词频信息的重要参考价值。通过总结词频信息的利用方法,包括通过词频和专业偏向度确定专业核心概念、通过词频信息确定优选词属性以及通过词频信息为概念确定范畴号。探讨对词频高低的词汇属性、优选词的重要程度、词频生命周期变化和词频使用的局限性等问题。  相似文献   

18.
论个性化图书馆的信息资源组织与整合   总被引:1,自引:1,他引:1  
从信息内容要求、信息获取、信息识别与匹配、信息整合技术四个方面,论述个性化图书馆的信息资源组织与整合。  相似文献   

19.
高校图书馆服务模式的研究   总被引:2,自引:1,他引:1  
在知识激增、信息爆炸的网络时代,信息资源的发展对高校图书馆的服务提出了更高的要求,在文献载体数字化、服务层次多元化的今天要求我们的工作更加规范化,最大程度地满足读者对文献信息的需求,构建知识服务无疑是最明智的选择,服务模式的构建值得我们共同探讨和实践。  相似文献   

20.
基于WordScore原理的信息政策价值评价模型与方法   总被引:1,自引:0,他引:1  
文章基于WordScore的基本原理和信息政策价值分类整合方法,构建了政策价值TESCO模型及词表,并以工信部和科技部的信息政策为样本,将政策文本进行语词切分,按照语词的价值属性建立“语词-政策价值”映射,从而提取文本的政策价值取向,并确定该文本或该领域的政策价值结构,比较不同领域的政策价值差异。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号