首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
利用优化的DBSCAN算法进行文献著者人名消歧   总被引:1,自引:0,他引:1  
通过对文本聚类算法DBSCAN算法优化对文献著者人名进行消歧,结果表明,相对标准文本聚类算法来说,优化后的算法能取得更好的人名消歧效果。  相似文献   

2.
在外文期刊数据库中,同一姓名简称代表多位作者的现象十分普遍,严重影响作者检索的精度。本次研究将规则与算法相结合,依据规则为分类算法标注训练数据,从而在无监督条件下使用有监督算法,实现作者的精确检索。该算法适用于论文查证等已知作者身份的姓名消歧问题,相比通用的消歧方法,该方法结合无监督算法无需人工标注的优点,以及有监督算法高效率、易对应实体的优点。实践结果表明,该方法具有较高的准确度。  相似文献   

3.
沈喆  王毅  鞠秀芳  成颖 《情报学报》2022,(4):350-363
学者完整且准确的学术成果集为科学计量与科研人才评价等研究提供了重要的数据基础。在现有基于机器学习模型的作者姓名消歧方法尚未达到实用要求的背景下,本研究面向高层次科研人才,充分利用基于规则方法精确率高的优势,提出了“先面向精确率,后面向召回率”的“两步法”作者姓名消歧模型。得益于该群体易于从网络中搜集其履历、研究方向和代表作等信息,消歧模型可采用的特征更加丰富,从而保证了消歧模型的优异性能。本研究以国家杰出青年科学基金获得者为例对模型进行了验证,结果表明,本研究提出的高层次科研人才作者名消歧模型在精确率与召回率两个方面均表现良好,在两组不同特征集上的F1值分别达到了0.93和0.95,较基线模型有较大提升。  相似文献   

4.
基于标注语料库的有指导学习方法是词义消歧取得性能最好的方法,优于无指导学习方法和基于词典的方法.它的准确率极大地依赖于标注语料库的规模,而目前人工标注语料库数量极少,缺乏标注语料就成为制约词义消歧发展的瓶颈,如何生成大规模标注语料成为词义消歧研究热点.自举是解决上述问题的重要方法,它以小规模标注语料作为种子,运用机器学习算法生成大规模标注语料.本文对自举在词义消歧中的应用和关键问题进行介绍.首先对自举进行算法描述,然后分别从中英文词义消歧领域介绍自举的应用情况,最后对自举应用涉及的初始种子、自举参数、未标注语料集的选择和互联网应用等几个关键问题进行总结.  相似文献   

5.
中文词义消歧上下文最优边界问题研究   总被引:1,自引:0,他引:1  
为了选择最优的边界,采用交叉验证方法,将取得错误率最低的上下文边界确定为上下文最优边界,并应用此方法对SemEval-2007中文数据集进行处理,得出此数据集的上下文最优边界为[-2,+2].为了验证其结果的有效性,进一步采用SemEval-2007测试集进行消歧测试,结果表明采用交叉验证法确定的最优边界对词义消歧准确率有一定提升.同时对不同词性歧义词的最优边界也进行讨论.  相似文献   

6.
借鉴现代汉语词义消歧的研究成果,提出一种改进的向量空间模型词义消歧方法,即在古汉语义项词语知识库的支持下,将待消歧多义词上下文与多义词的义项映射到向量空间模型中,完成语义消歧任务。以中国农业古籍全文数据库为统计语料,对10个典型古汉语多义词,共29个义项、1 836条待消歧上下文进行义项标注的实验,消歧平均正确率达到79.5%。  相似文献   

7.
吴丹 《图书情报工作》2009,53(13):120-81
查询翻译歧义性问题是影响跨语言信息检索结果的关键,因此针对查询翻译的消歧研究已成为信息检索领域的研究热点。在对现有研究与应用调研的基础上,详细分析四类自动消歧方法,分别是:对查询进行结构化处理、通过语言分析帮助消歧、借助机读化语言资源进行消歧以及通过人机交互消歧,以期为跨语言信息检索查询翻译提供较好的消歧方法。  相似文献   

8.
基于网络协作标注的标签消歧方法述评   总被引:1,自引:0,他引:1  
以网络协作标注中的标签为研究对象,调研标签消歧方法,并将其划分为基于数据挖掘方法消歧、基于统计分析方法消歧、利用相关知识组织工具消歧、引入控制机制消歧和开发可视化组件消歧5类。比较这5类消歧方法在用户参与度、消歧时机、消歧性质、实验与应用情况和发展前景5个方面存在的区别和联系。  相似文献   

9.
付媛  朱礼军  韩红旗 《情报工程》2016,2(1):053-058
为应对日益严重的姓名歧义现象给提高搜索引擎查全率和查准率带来的挑战,同时给姓名消歧方法研究提供参考建议,对研究现状和主要成果进行总结.首先,介绍研究姓名消歧的目的和意义.其次,对国内外现有姓名消歧方法研究进展进行梳理,主要方法包括基于特征的、基于机器学习的、基于社会网络的、基于网络知识资源的姓名消歧等多种方法来解决姓名歧义问题.最后,文章分析各种方法的特征和不足,总结姓名消歧待解决的问题以及未来的研究方向.  相似文献   

10.
分析跨语言信息检索的基本模式和翻译消歧关键技术,采用基于词语对共现率和词语间距加权计算的方法,对查询式翻译进行消歧优化,在此基础上构建跨语言商品信息检索系统并应用于图书商品搜索,实验结果证明翻译质量和检索效果得到提高。  相似文献   

11.
在对目前各种作者重名消解方法进行总结的基础上, 针对中文文献题录数据特征, 将重名消解问题转换为同名作者文献的分类问题, 提出一种基于规则和相似度的重名消解框架模型, 并对其中的分解规则和合并规则进行详细的算法描述, 最后选取3个学科的重名作者数据集进行实验, 实验结果表明该模型能有效提高作者重名消解的准确率.  相似文献   

12.
作者重名辨识研究进展   总被引:1,自引:0,他引:1  
作者重名现象将降低文献检索和网络检索的准确性,影响文献数据搜集质量,增加基于作者个人层面分析评价的障碍。目前国内外学者提出了人工辨识、数据库字段修正、基于机器学习的重名辨识等多种方法来解决作者重名问题。文章总结作者重名辨识面临的问题,分析当前各辨识方法的特点以及不足之处,指明作者重名辨识特别是中国作者重名辨识的发展方向。  相似文献   

13.
There are a number of solutions that perform unsupervised name disambiguation based on the similarity of bibliographic records or common coauthorship patterns. Whether the use of these advanced methods, which are often difficult to implement, is warranted depends on whether the accuracy of the most basic disambiguation methods, which only use the author's last name and initials, is sufficient for a particular purpose. We derive realistic estimates for the accuracy of simple, initials-based methods using simulated bibliographic datasets in which the true identities of authors are known. Based on the simulations in five diverse disciplines we find that the first initial method already correctly identifies 97% of authors. An alternative simple method, which takes all initials into account, is typically two times less accurate, except in certain datasets that can be identified by applying a simple criterion. Finally, we introduce a new name-based method that combines the features of first initial and all initials methods by implicitly taking into account the last name frequency and the size of the dataset. This hybrid method reduces the fraction of incorrectly identified authors by 10–30% over the first initial method.  相似文献   

14.
指出建立“学者唯一标识”对消除文献中作者姓名拼写歧义意义重大。认为ResearcherID提供了一种通过学者自动注册消除作者姓名拼写歧义的解决方案,对其产生背景、注册机制及衍生服务进行详细调研,分析ResearcherID注册学者的分布及发展现状,阐述ResearcheID的相关产品ORCID与ReseacherID的渊源及关系。最后讨论ResearchrID的应用前景及对当前图书馆服务的启发。  相似文献   

15.
Web person search is one of the most common activities of Internet users. Recently, a vast amount of work on applying various NLP techniques for person name disambiguation in large web document collections has been reported, where the main focus was on English and few other major languages. This article reports on knowledge-poor methods for tackling person name matching and lemmatization in Polish, a highly inflectional language with complex person name declension paradigm. These methods apply mainly well-established string distance metrics, some new variants thereof, automatically acquired simple suffix-based lemmatization patterns and some combinations of the aforementioned techniques. Furthermore, we also carried out some initial experiments on deploying techniques that utilize the context, in which person names appear. Results of numerous experiments are presented. The evaluation carried out on a data set extracted from a corpus of on-line news articles revealed that achieving lemmatization accuracy figures greater than 90% seems to be difficult, whereas combining string distance metrics with suffix-based patterns results in 97.6–99% accuracy for the name matching task. Interestingly, no significant additional gain could be achieved through integrating some basic techniques, which try to exploit the local context the names appear in. Although our explorations were focused on Polish, we believe that the work presented in this article constitutes practical guidelines for tackling the same problem for other highly inflectional languages with similar phenomena.
Marcin SydowEmail:
  相似文献   

16.
基于混合算法的电子商务推荐系统设计研究   总被引:1,自引:0,他引:1  
针对目前电子商务推荐系统不能很好地为未注册用户服务的问题,根据未注册用户和注册用户各自特点采用两套不同的数据收集方案,以提高网站的友好性与数据的准确性。在推荐算法方面,由于决策树归纳算法与贝叶斯网络算法各有优劣,故将两种算法结合使用,并引入基于内容的算法思想对商品的各属性进行研究,以提高推荐的准确性。实验证明:上述方法能够很好地为未注册用户服务且基于混合算法的推荐优于基于单种算法的推荐。  相似文献   

17.
通过对科研基金名称数据特点和文本数据聚类方法的分析,提出并实现了基于编辑距离算法(Levenshtein Distance)的科研基金名称数据分析方法,该算法首先通过设定相似度方式对科研基金名称数据进行聚类形成数据分组,再对分组数据进行二次聚类计算出组的相似度之和,并据此判定数据聚类中心。该方法已经成功应用于中国医学科学院医学信息研究所的医学文献基金数据处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号