首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 328 毫秒
1.
本文依据中国知网、《中图法》、《中国分类主题词表》等知识库,通过对领域词语的概念化处理、建立推理规则、过滤掉阈值较低的词语等手段,形成领域词语本体知识库;然后,根据待分类题名的语义逻辑关系,结合基于距离的语义相似度的计算规则,形成一种应用于领域词语本体的题名自动分类方法,该方法在一定程度上弥补了文献题名特征不足的缺点,且提高了准确率和召回率。  相似文献   

2.
一种基于句法分析的情感标签抽取方法   总被引:1,自引:0,他引:1  
指出情感标签由评价对象和情感词组成,包含评论的关键要素,能清楚地表达评价者的观点意见。提出一种针对产品网络评论的情感标签抽取模型,利用依存句法分析设计情感标签抽取算法,通过情感极性计算对抽取出的情感标签进行过滤。通过放宽的抽取规则与情感极性过滤相结合,以提高情感标签的召回率,实现潜在评价对象的抽取。最后用网络抓取的产品评论语料作为测试数据集对模型进行测试,获得较高的抽取准确率和召回率,并对模型中存在的问题进行总结,作为模型改善的指导。  相似文献   

3.
针对语义检索在实际应用中面临的用户查询意图获取困难、潜在语义索引计算复杂、领域本体覆盖范围小、概念语义类型不丰富、自动化程度低等问题,提出基于WordNet和SUMO本体集成的自动语义检索及可视化模型。实验表明这种模型能够过滤掉大量与用户查询无关的信息,提高信息检索系统的检准率,并很好地满足用户可视化和个性化检索需求。  相似文献   

4.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

5.
基于文本的信息过滤模型   总被引:1,自引:0,他引:1  
信息过滤技术用于帮助用户在动态信息流中过滤出用户感兴趣的信息。通过对信息过滤概念的阐述,抽象出这类系统的一般模型。介绍了布尔模型、向量空间模型、潜在语义索引模型和神经网络模型等四种信息过滤模型,并就其特点进行了分析。  相似文献   

6.
随着专利数据规模的不断增长,对专利数据的深入挖掘也变得日益重要,特别是专利数据中所蕴含的技术功效等信息具有较高的价值。本文提出了一种基于隐马尔科夫模型的专利功效词识别方法,通过词法与句法分析筛选出候选功效词,在此基础上,采用隐马尔科夫模型并结合专利发明改进的特征设计了功效词识别算法,对候选功效词进行过滤。在新能源汽车等不同领域的专利数据集上,以准确率与召回率作为评价标准,验证所提出方法的有效性。实验结果表明,此方法有效提高了识别准确率与召回率。  相似文献   

7.
基于NMF的用户模板构造方法   总被引:2,自引:0,他引:2  
文本过滤是网络安全领域的一个重要研究课题。基于内容的文本过滤关键在于建立语义层次上的用户模板。本文提出一种基于非负矩阵分解 (Non negativeMatrixFactorization ,NMF)的用户模板构造方法。该方法应用NMF算法分解项 文本矩阵来获取项之间的相关性。在此基础上 ,引入语义向量和权重向量的概念 ,并通过定义语义向量的类别区分度来提取用户模板。实际表明 ,与基于奇异值分解的潜在语义索引方法相比 ,该方法不仅较大地提高了过滤精度 ,而且具有计算速度快、占用存储空间较少的优点  相似文献   

8.
在领域本体的基础上,对面向专利文献的语义检索与分析方法进行探讨,并构建一套专利语义检索与分析系统,包括语义检索、趋势分析、相似专利检测、重要专利检测等模块,初步实现基于领域本体的专利语义检索与挖掘。同时,以国际专利分类号为C21的中文专利数据为例进行实验,证明本体扩展后的语义检索的召回率得到大幅提高,继而使得后续的专利分析和挖掘效果更加明显,从而有助于进一步深入开展专利挖掘工作。  相似文献   

9.
基于 UMLS医学本体的挖掘文献间潜在联系的设计与实现   总被引:1,自引:0,他引:1  
以Swanson的非相关文献知识发现的原理为依据,采用自然语言处理技术,将不规范的自然语言转换为UMLS中的概念,同时引入语义过滤系统,开发出非相关医学文献潜在联系的挖掘工具,同时用Swanson发现镁与偏头痛的数据做验证,结果表明,该方法能很好地重现Swanson的研究结果,并且能发现更多的有潜在价值的中介词,具有较高的效率。  相似文献   

10.
数字图像管理系统模型设计与实现   总被引:1,自引:0,他引:1  
从用户角度出发,设计一个面向大众用户的,集数字图像采集、处理、存储和检索等功能于一体的数字图像管理系统模型,并研究标注词的数量对于语义检索的准确率和召回率的影响。实验表明,本系统模型能够满足大众用户对于数字图像管理的需求。  相似文献   

11.
[目的/意义]基于内容的过滤推荐中,针对向量空间模型表示文本时容易造成维度灾难的问题,提出利用余弦值r与匹配度值Sim相结合的方法对原有模型进行改进。[方法/过程]由文献资源和用户兴趣分别筛选出权重较大特征词的词向量,进而由公式计算余弦值r,结合对应的特征词权重进一步计算出匹配度值Sim,将其作为向目标用户推荐文献的依据,并利用河北工业大学图书馆的相关数据对改进模型、向量空间模型及LDA主题模型进行实验,最后利用查准率、召回率、F1值及运行时间等评价指标对3种模型的实验结果进行分析。[结果/结论]实验结果表明所提出的改进模型相比较于实验中的向量空间模型与LDA主题模型具有更高的应用价值与运行效率。  相似文献   

12.
一个基于反馈的信息过滤系统的设计与实现   总被引:7,自引:0,他引:7  
随着互联网上信息的迅速增长 ,信息过滤技术得到越来越广泛的应用。本文论述了一个基于反馈的内容信息过滤系统的设计和实现。它采用向量空间模型 ,使用类重心分类算法来形成用户兴趣文件 ,采用余弦算法比较待过滤文档和用户兴趣文件的相似度 ,并使用Rocchio反馈模型来重建用户兴趣文件。实验表明 ,本文提出的策略和方法是切实可行的  相似文献   

13.
针对高校图书馆场景存在的无显式反馈、借阅数据稀疏和传统推荐算法效果不好问题,提出基于时间上下文优化协同过滤的推荐算法,包含读者阅读行为评分、时间上下文和内容兴趣变迁3个要素。在数据准备阶段,通过制定评分转化规则、设计标准化函数来构建一种基于用户行为操作的兴趣评分模型,以解决用户评分缺失问题;在推荐召回阶段,提出一种非线性的时间衰减模型来对评价矩阵进行优化,以提高推荐效果;在推荐排序阶段,提出一种兴趣捕捉模型对召回结果按照图书类别进行精排序,以缓解数据稀疏问题并进一步提高推荐效果。实验结果表明,文章提出的优化算法在Top5的F值较未经优化的协同过滤提升增幅达141%。  相似文献   

14.
为提高医学文献检索的效率和检索结果输出的有效性,快速客观地为科研人员提供高信度、低冗余的参考文献,实现检索结果按相关度排序输出,就基于向量空间模型的文献相关度计算方案进行探讨,提出基于相关度的医学文献聚类分析和相关度排序。  相似文献   

15.
针对目前信息服务机构只能提供文献的检索服务而不提供表格检索功能这一现状,提出一种基于向量空间模型的表格检索算法,并从表格特征抽取、特征词权值设置、检索结果匹配排序等方面进行讨论,为未来表格检索服务提供一定的理论依据。  相似文献   

16.
信息过滤是卫生政策知识服务平台建设中的核心技术,在系统研究信息过滤的几种经典方法的基础上,确立将向量空间模型作为该平台的信息过滤方法,并进行一定的改进,以避免传统向量空间模型的不足。在字段间权重设定方面,采用信息检索过程中评价检索效果的两个经典指标,即查全率和查准率进行过滤效果的评价,并进行反复测试,最终确定各类资源不同字段在信息过滤过程中设置的权重及阈值,成功完成信息采集、信息分类、信息主动推送等功能。  相似文献   

17.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

18.
In the IR field it is clear that the value of a system depends on the cost and benefit profiles of its users. It would seem obvious that different users would prefer different systems. In the TREC-9 filtering track, systems are evaluated by a utility measure specifying a given cost and benefit. However, in the study of decision systems it is known that, in some cases, one system may be unconditionally better than another. In this paper we employ a decision theoretic approach to find conditions under which an Information Filtering (IF) system is unconditionally superior to another for all users regardless of their cost and benefit profiles.It is well known that if two IF systems have equal precision the system with better recall will be preferred by all users. Similarly, with equal recall, better precision is universally preferred. We confirm these known results and discover an unexpected dominance relation in which a system with lower recall will be universally preferred provided its precision is sufficiently higher.  相似文献   

19.
曾文  徐红姣  李颖  王莉军  赵婧 《情报工程》2016,2(3):037-042
文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型(VSM)为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的TF-IDF计算方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号