共查询到10条相似文献,搜索用时 500 毫秒
1.
面向双语术语抽取这一应用目标,提出专业领域可比语料库的构建方案并进行实验论证。针对给定的主题领域分别进行中英文专业语料的采集,从中分别获取中英文关键词,根据词语共现统计获取该主题领域的其他相关关键词;以这些关键词作为查询入口,通过学术搜索引擎从网络获取候选可比语料;对可比语料进行定量评估,以剔除不符合要求的语料,最终得到特定主题领域的可比语料库。 相似文献
2.
为满足用户对多语言信息表达与获取的迫切需求,可比语料库的研究和开发逐渐成为信息检索领域研究者和系统开发人员的关注重点.从跨语言信息检索视角出发,可比语料库的构建方法主要有提问式翻译法、特征过滤法、中间语言翻译法、文本翻译法和同源匹配法等.我国可比语料库的建设,应在充分考虑系统整体性能的前提下,根据用户需求选择适用的构建方法,完善文本翻译及术语抽取技术,并优化文本对齐方式. 相似文献
3.
4.
语义词典在语言学和自然语言处理研究中占有相当关键的位置.语义词典的构造,通常有两类做法.一类是基于语言学家的主观判断,另一类则是基于机器的自动聚类.后者是本文所要研究的主题.本文基于大规模的语料库,利用自组织映射神经网络(SOM)对词典进行无监督的自动构造.首先从语料库中抽取待聚类词的上下文窗口中的词,并利用信息增益(Information Gain)对特征词进行选择,然后借鉴信息检索模型中的TFIDF计算特征向量中每一个特征的特征权重,最后将构造好的待聚类词的特征向量作为SOM的输入,经过网络的迭代计算将不同类别的词映射在SOM输出网格的不同结点. 相似文献
5.
6.
对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,最后汇总成高质量、大规模、全领域的"高大全"式双语平行语料库。同时,围绕一个实例介绍如何利用Web资源建设特定领域双语平行语料库。 相似文献
7.
在综合国内学术信息检索服务的现状和现有理论方法研究的基础上,以检索词推荐为研究对象,构建基于文献特征项共现网络的学术信息检索词推荐模型。模型包括基础文献存储模块、文献特征项抽取模块、文献特征项共现网络预处理模块、基于特征项的文献检索模块及检索词服务前端5个部分。利用实验验证基于特征项的共现网络用于检索词推荐的可行性,结果表明推荐模型结果与各检索项的检索词更具有相关性,推荐质量较好。 相似文献
8.
9.
汉英词典作为沟通中文与英语两种不同语言的桥梁,是中国与世界交流的工具。在信息时代飞速发展的今天,双语词典的自动构建技术在机器翻译和跨语言检索领域起着重要的作用,本文对双语词典的自动构建方法和其中的关键技术进行了比较全面的分析和总结,并提出一种从汉英平行语料库中抽取双语词语,自动构建双语词典的方法,在实现汉英句子级对齐后,对双语语料分别进行分词和词性标注处理,通过抽取汉英词语单元并计算其关联概率来实现汉英的词语对齐,最终生成双语词典。该方法在对真实语料的双语词典构建实验中取得了较好的结果,词对齐效果优于传统的IBM模型方法。 相似文献
10.
基于双语平行语料库的信息服务平台建设 总被引:2,自引:0,他引:2
王传英 《图书馆工作与研究》2010,(12)
公共图书馆是公共信息的主要提供者,而各类外文文献信息资源则是公共信息的重要组成部分.语言障碍已经成为限制我国图书馆外文文献利用的最大"瓶颈".上世纪80年代我国开始的语料库建设为翻译教育和翻译产业的发展奠定了坚实的基础,其中双语平行语料库在教学单位和翻译公司得到了广泛应用.为了克服语言障碍,翻译公司和公共图书馆应该发挥各自的资源、技术优势,合作建设基于双语平行语料库的信息服务平台,以改善公共信息服务的质量和功能. 相似文献