首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
跨语言信息检索方法概述   总被引:4,自引:0,他引:4  
本文介绍了跨语言信息检索问题的由来与发展,通过对单语言信息检索技术的介绍引入了跨语言检索的关键问题,并分别介绍了跨语言信息检索中基于词典、基于语料和基于机器翻译模块这三种主流方法,最后对跨语言检索的一体化方法等较新的思想和跨语言检索评测等做了简要说明.  相似文献   

2.
网上信息的跨语言检索   总被引:6,自引:0,他引:6  
文章对跨语言信息检索的相关技术和实现方法进行了系统地论述,对跨语言 检索中的语言资源、翻译歧义性消解等关键性问题的研究进行了归纳与梳理,指出我国跨 语言检索研究距世界先进水平尚有一定差距,应加强该领域的研究。  相似文献   

3.
许多研究已经探讨了跨语言和多语言信息检索问题,并提出了多种实现方法,特别是针对查询的翻译.但是大多数的方法都将跨语言检索问题看成是两个分开的步骤查询的翻译和单语检索.而对于多语言信息检索,则另外再加上一个结果合成的步骤.在本文中,我们提出一种一体化的检索方法,即将查询的翻译看成是整个检索过程的一部分.使用这种一体化的方法能充分将翻译和检索中的不确定性结合起来,从而达到更好的整体优化,也能将单语言信息检索的方法用于跨语言及多语言信息检索.  相似文献   

4.
互联网信息的多语言性和人们所能熟练运用语言的有限性,使得语言已经成为人们进行信息获取和理解的主要障碍之一,应运而生的跨语言信息检索技术受到了研究和应用人员的日益关注。本文主要从双语检索和多语检索两个方面,总结了当前该领域的相关技术和方法,并讨论了跨语言信息检索的优化技术和相关评测情况。  相似文献   

5.
近年来国外在多语言信息组织与检索研究领域取得了显著进展。本文以WoS、ACM、Emerald、Elsevier、ProQuest、Springer等数据库收录的文献为基础,对近10年来该领域的研究进行述评。国外研究重点关注以下问题:多语言本体构建与协调,基于关联数据的多语言语义网建设,跨语种语言资源和知识组织系统互操作,多语言文本分类与聚类,多语言环境下的用户信息行为,多语言信息检索模型,多语言信息检索方法与技术,多语言信息检索系统开发及评估,特定领域的多语言信息检索,交互式多语言信息检索。对我国的启示主要体现在:加强实证研究方法的应用,开发面向实用的多语言信息检索系统,注重基于语义的信息组织与检索研究,拓展特定学科领域应用研究。  相似文献   

6.
语言模型在信息检索中的应用   总被引:1,自引:0,他引:1  
基于语言模型的检索方法为信息检索领域开辟了一个很有前景同时也具有相当挑战性的方向。与传统检索模型相比,语言模型不仅具有良好的理论基础,而且非常灵活,经过简单的变换很容易推演出其他经典的检索模型。此外,大量的实验结果表明,该方法的检索效果优于其他检索模型,因而一经提出便受到了广大研究人员的青睐。然而当前语言模型方法的研究主要集中在单语检索任务中,很少有研究关注语言模型方法在跨语言检索中的应用,针对这个问题,本文在系统介绍基于语言模型检索方法的基础上,将语言模型方法扩展到跨语言检索任务中,介绍了两个跨语言检索模型:统计翻译模型和跨语言相关语言模型。  相似文献   

7.
跨语言信息检索的发展与展望   总被引:7,自引:0,他引:7  
随着计算机网络技术的发展,全球互联网用户快速增长,网络信息资源语种也日益多样,跨语言信息检索已成为越来越重要的研究课题。本文介绍了跨语言信息检索的概念,阐述了跨语言信息检索的实现方法,分析了各翻译方式的技术难点问题,简介了相关的国际测评会议,并对如何进一步提高跨语言的检索精度,提出了自己的看法。  相似文献   

8.
[目的/意义] 构建一个基于多语言本体的跨语言信息检索模型,有助于用户通过该模型使用自己熟悉的语言来获取不同语种的信息资源。[方法/过程] 通过本体设计及检索模型功能模块设计建立一个基于数字出版领域本体的中英跨语言信息检索模型,并利用Java语言及Lucene搜索引擎架构对该模型进行编程实现。[结果/结论] 多语言领域本体具有明确、形式化、共享、概念化、结构清晰等特征,可以作为语义层应用于跨语言信息检索系统之中,实现信息资源的语义表达。经测试,本文构建的模型能够较好地实现分词、查询扩展和语义关联等功能,促进跨语言信息检索向语义层次发展。  相似文献   

9.
交互式跨语言信息检索是信息检索的一个重要分支。在分析交互式跨语言信息检索过程、评价指标、用户行为进展等理论研究基础上,设计一个让用户参与跨语言信息检索全过程的用户检索实验。实验结果表明:用户检索词主要来自检索主题的标题;用户判断文档相关性的准确率较高;目标语言文档全文、译文摘要、译文全文都是用户认可的判断依据;翻译优化方法以及翻译优化与查询扩展的结合方法在用户交互环境下非常有效;用户对于反馈后的翻译仍然愿意做进一步选择;用户对于与跨语言信息检索系统进行交互是有需求并认可的。用户行为分析有助于指导交互式跨语言信息检索系统的设计与实践。  相似文献   

10.
跨语言信息检索中的词语转换方法   总被引:1,自引:1,他引:1  
耿骞  王洋 《图书情报工作》2004,48(10):81-83
讨论跨语言信息检索的相关技术和有关内容,重点讨论跨语言信息检索系统所要解决的问题,并针对其中最常用的一种跨语言信息检索方法,即用户提问转换法中的关键问题--词语转换问题及其实现方法进行讨论。这些方法有基于词典的实现方法、基于索引辞典的实现方法和基于语料库的实现方法。  相似文献   

11.
This study develops regression models for predicting the performance of cross-language information retrieval (CLIR). The model assumes that CLIR performance can be explained by two factors: (1) the ease of search inherent in each query and (2) the translation quality in the process of CLIR systems. As operational variables, monolingual information retrieval (IR) performance is used for measuring the ease of search, and the well-known evaluation metric BLEU is used to measure the translation quality. This study also proposes an alternative metric, weighted average for matched unigrams (WAMU), which is tailored to gauging translation quality for special IR purposes. The data for regression analysis are obtained from a retrieval experiment of English-to-Italian bilingual searches using the CLEF 2003 test collection. The CLIR and monolingual IR performances are measured by average precision score. The result shows that the proposed regression model can explain about 60% of the variation in CLIR performance, and WAMU has more predictive power than BLEU. A back translation method for applying the regression model to operational CLIR systems in real situations is discussed.  相似文献   

12.
面对日益膨胀的多语种信息资源,跨语言信息检索已成为实现全球知识存取和共享的关键技术手段。构建一个实用型的跨语言检索查询翻译接口,可方便地嵌入任意的信息检索平台,扩展现有信息检索平台的多语言信息处理能力。该查询翻译接口采用基于最长短语、查询分类和概率词典等多种翻译消歧策略,并从查询翻译的准确性和接口的运行效率两个角度对构建的查询翻译接口进行评测,实验结果验证所采用方法具有可行性。  相似文献   

13.
邱悦 《图书情报工作》2006,50(10):82-86
认为网络语言和用户语言的多样化使跨语言信息检索成为一个重要的研究领域,该领域所采用的技术主要包括基于机器翻译的方法、基于机读双语词典的方法、基于主题词表的方法以及基于平行语料库的方法。跨语言信息检索的实现除以技术为基础外,还需要查询扩展技术的辅助。  相似文献   

14.
Cross-language information retrieval (CLIR) has so far been studied with the assumption that some rich linguistic resources such as bilingual dictionaries or parallel corpora are available. But creation of such high quality resources is labor-intensive and they are not always at hand. In this paper we investigate the feasibility of using only comparable corpora for CLIR, without relying on other linguistic resources. Comparable corpora are text documents in different languages that cover similar topics and are often naturally attainable (e.g., news articles published in different languages at the same time period). We adapt an existing cross-lingual word association mining method and incorporate it into a language modeling approach to cross-language retrieval. We investigate different strategies for estimating the target query language models. Our evaluation results on the TREC Arabic–English cross-lingual data show that the proposed method is effective for the CLIR task, demonstrating that it is feasible to perform cross-lingual information retrieval with just comparable corpora.  相似文献   

15.
We present a system for multilingual information retrieval that allows users to formulate queries in their preferred language and retrieve relevant information from a collection containing documents in multiple languages. The system is based on a process of document level alignments, where documents of different languages are paired according to their similarity. The resulting mapping allows us to produce a multilingual comparable corpus. Such a corpus has multiple interesting applications. It allows us to build a data structure for query translation in cross-language information retrieval (CLIR). Moreover, we also perform pseudo relevance feedback on the alignments to improve our retrieval results. And finally, multiple retrieval runs can be merged into one unified result list. The resulting system is inexpensive, adaptable to domain-specific collections and new languages and has performed very well at the TREC-7 conference CLIR system comparison.  相似文献   

16.
文章旨在探讨查询分类技术和跨语言检索技术的关系,前者的应用能否改善后者的系统性能是核心问题。首先提出一种基于查询分类的标准化折扣累积增量评价指标,通过对采用查询分类技术前后信息检索系统的标准化折扣累积增量评价指标的变化进行判断,来检验该评价指标的可用性和有效性。同时,查询分类可以作为降低跨语言检索系统查询翻译的歧义性的技术手段。对大规模查询集随机抽样的查询翻译实验结果表明,本文提出的基于查询分类的查询翻译消歧方法对大部分查询有效,在一些情况下甚至可以直接通过本方法完成查询翻译。结合其他方法进一步消除翻译的歧义性则是下一步的工作内容。  相似文献   

17.
综述命名实体识别与翻译研究现状,提出基于信息抽取的命名实体识别与翻译方法,以及对该方法进行一系列集成优化处理,并实现了基于命名实体识别与翻译的跨语言信息检索实验。实验结果显示出命名实体识别与翻译在跨语言信息检索中的重要性,并证明了所提出的翻译加权和网络挖掘未登录命名实体方法的应用能显著提高跨语言信息检索的性能。  相似文献   

18.
This paper reviews literature on dictionary-based cross-language information retrieval (CLIR) and presents CLIR research done at the University of Tampere (UTA). The main problems associated with dictionary-based CLIR, as well as appropriate methods to deal with the problems are discussed. We will present the structured query model by Pirkola and report findings for four different language pairs concerning the effectiveness of query structuring. The architecture of our automatic query translation and construction system is presented.  相似文献   

19.
本文介绍了现阶段情报检索研究中的几个前沿问题,包括自然语言检索、跨语言检索、智能信息检索、基于语义的图像和视频检索及检索系统评价研究的最新发展情况。语言、智能和语义等问题相互关联,近年来又一同推动着信息检索的发展。检索评价研究也有针对性地引导着情报检索的发展方向。结语部分论述了这些问题在情报检索前沿发展中的本质联系及未来的发展方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号