首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
词义消歧是一个分类过程,局部上下文是主要的分类特征.对称窗口指上下文边界与歧义词的左右距离相等,大部分消歧系统凭经验将其作为最优的局部上下文窗口,很少选择非对称窗口.对称窗口是否优于非对称窗口?本文以Senseval-3中文数据集为例对这一问题展开研究.首先,对训练集采用交叉验证法确定最优窗口,它是非对称的.并采用此非对称窗口与多组经典的对称窗口进行了对比消歧测试,结果表明非对称窗口的表现优于对称窗口.进一步在独立采用词或词性作为特征的情况下进行交叉验证评估,发现趋于对称的窗口总体上表现是优秀的.在不进行辅助计算的情况下,可以选择对称窗口作为局部上下文窗口,但它并不是最优的.  相似文献   

2.
借鉴现代汉语词义消歧的研究成果,提出一种改进的向量空间模型词义消歧方法,即在古汉语义项词语知识库的支持下,将待消歧多义词上下文与多义词的义项映射到向量空间模型中,完成语义消歧任务。以中国农业古籍全文数据库为统计语料,对10个典型古汉语多义词,共29个义项、1 836条待消歧上下文进行义项标注的实验,消歧平均正确率达到79.5%。  相似文献   

3.
一个构造良好的查询是信息检索质量的基本保证,语义查询扩展技术解决了传统信息检索系统不能很好理解用户查询意图的问题,在提高检索查全率的同时保证了检索准确率。本文以查询关键字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,以WordNet本体库和WordNet Domains扩展库作为消歧数据源,使用基于局部上下文和基于图论的两类无导词义消歧方法进行查询关键字到本体概念的映射,最后基于概念词汇关联完成基于语义的查询扩展。综合WordNet本体库和WordNet Domains扩展库中的各项知识源对查询词义进行判定,保证了词义消歧的精度;采用无导词义消歧实现查询词义的快速判定,保证了信息检索的实时性;根据查询关键词的多寡分别提出两类消歧方法,满足了各种查询需求。  相似文献   

4.
在深入分析NSTL篇级元数据特点的基础上,结合模糊匹配算法,提出一种适合NSTL现有数据的人名消歧规则集,并给出基于该规则集的人名消歧算法。通过对实际数据集的实验,该算法在准确率、召回率等指标方面都有良好的表现,具备较好的消歧效果。  相似文献   

5.
沈喆  王毅  鞠秀芳  成颖 《情报学报》2022,(4):350-363
学者完整且准确的学术成果集为科学计量与科研人才评价等研究提供了重要的数据基础。在现有基于机器学习模型的作者姓名消歧方法尚未达到实用要求的背景下,本研究面向高层次科研人才,充分利用基于规则方法精确率高的优势,提出了“先面向精确率,后面向召回率”的“两步法”作者姓名消歧模型。得益于该群体易于从网络中搜集其履历、研究方向和代表作等信息,消歧模型可采用的特征更加丰富,从而保证了消歧模型的优异性能。本研究以国家杰出青年科学基金获得者为例对模型进行了验证,结果表明,本研究提出的高层次科研人才作者名消歧模型在精确率与召回率两个方面均表现良好,在两组不同特征集上的F1值分别达到了0.93和0.95,较基线模型有较大提升。  相似文献   

6.
基于标注语料库的有指导学习方法是词义消歧取得性能最好的方法,优于无指导学习方法和基于词典的方法.它的准确率极大地依赖于标注语料库的规模,而目前人工标注语料库数量极少,缺乏标注语料就成为制约词义消歧发展的瓶颈,如何生成大规模标注语料成为词义消歧研究热点.自举是解决上述问题的重要方法,它以小规模标注语料作为种子,运用机器学习算法生成大规模标注语料.本文对自举在词义消歧中的应用和关键问题进行介绍.首先对自举进行算法描述,然后分别从中英文词义消歧领域介绍自举的应用情况,最后对自举应用涉及的初始种子、自举参数、未标注语料集的选择和互联网应用等几个关键问题进行总结.  相似文献   

7.
付媛  朱礼军  韩红旗 《情报工程》2016,2(1):053-058
为应对日益严重的姓名歧义现象给提高搜索引擎查全率和查准率带来的挑战,同时给姓名消歧方法研究提供参考建议,对研究现状和主要成果进行总结.首先,介绍研究姓名消歧的目的和意义.其次,对国内外现有姓名消歧方法研究进展进行梳理,主要方法包括基于特征的、基于机器学习的、基于社会网络的、基于网络知识资源的姓名消歧等多种方法来解决姓名歧义问题.最后,文章分析各种方法的特征和不足,总结姓名消歧待解决的问题以及未来的研究方向.  相似文献   

8.
分析跨语言信息检索的基本模式和翻译消歧关键技术,采用基于词语对共现率和词语间距加权计算的方法,对查询式翻译进行消歧优化,在此基础上构建跨语言商品信息检索系统并应用于图书商品搜索,实验结果证明翻译质量和检索效果得到提高。  相似文献   

9.
BT863-Ⅱ英汉机器翻译中译文选择方法   总被引:1,自引:0,他引:1  
本文给出了BT863Ⅱ英汉机器翻译中,规则和统计方法并举的译文选择策略。基于规则的译文选择方法主要通过考察英语单词在一定上下文中的句法和语义特征,形成支持译文选择的规则;基于统计的译文选择方法是在目标语二元统计的基础上,针对待翻译的英语句子形成消歧矩阵,对消歧矩阵采用了一种贪心搜索策略进行译文选择。  相似文献   

10.
吴丹 《图书情报工作》2009,53(13):120-81
查询翻译歧义性问题是影响跨语言信息检索结果的关键,因此针对查询翻译的消歧研究已成为信息检索领域的研究热点。在对现有研究与应用调研的基础上,详细分析四类自动消歧方法,分别是:对查询进行结构化处理、通过语言分析帮助消歧、借助机读化语言资源进行消歧以及通过人机交互消歧,以期为跨语言信息检索查询翻译提供较好的消歧方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号