共查询到20条相似文献,搜索用时 31 毫秒
1.
综合采用切分标志、分词词典和N元语法3种方法对古籍文本进行分词,并采用子串比较过滤、相邻词过滤、高频词过滤、低频词过滤等方法对分词结果进行过滤,分别以12种农业古籍和379种<广东方志物产>为语料进行了古籍分词测试.从12种农业古籍中共识别出已有词1164个,约占总词汇量的31%;未登录词2530个,占总词汇的69%.从379种<广东方志物产>资料中共识别出已有词6314个,占总词汇的8%;未登录词75 438个,则占总词汇的92%.通过对379种<广东方志物产>分词结果的分析发现,当词频等级位于区间(2000,8000)时,词频等级与频次乘积基本为常数23 000 000.这一结果说明齐夫定律在古籍文本中同样适用. 相似文献
2.
[目的/意义] 论文摘要是信息组织的重要标引对象,将论文摘要按一定结构进行标引有利于科学传播、知识发现和情报分析。如何对现有非结构式摘要进行精准快速的自动标引是亟待解决的现实问题。[方法/过程] 假定不同类别的摘要具有内在一致性,即对结构式摘要的研究可为非结构式摘要自动标引提供方法和技术参考。据此,基于美国国家医学图书馆结构要素标签术语集和标签分类映射关系,提出结构要素BOMRC体系和结构式摘要的识别与规范化标引方法。其次选取研究样本并采用文本挖掘方法对样本语料中的单词、动词、三词词块、四词词块等词汇进行词频、TFIDF值等多个指标的定量统计分析,构建能够进行结构要素识别的语义特征词典。最后利用非结构式摘要测试集进行语义特征词典有效性检验。[结果/结论] 结果显示,利用语义特征词典方法能够有效识别非结构式摘要的各类要素,并可用于优化以机器学习方法为核心的自动识别模型。 相似文献
3.
4.
以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。 相似文献
5.
6.
中文生物医学文本无词典分词方法研究 总被引:1,自引:0,他引:1
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进。实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%。最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异。研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值。 相似文献
7.
8.
9.
10.
一前言
改革开放后,我国的汉英语文词典出版进入了一个快速发展的繁荣期.据不完全统计,这一阶段国内出版的汉英语文词典有30余部,这些词典在编纂宗旨、编纂方法等方面都逐渐成熟,并具有鲜明的中国特色,词典大都采用音序排列、双重宏观结构、收词立目以<现代汉语词典>为蓝本,并注意收录新词新义,词典例证较为丰富. 相似文献
11.
目前我国出版了上百种现代汉语方言词典,它们呈现出如下特点:描写单点方言的词典多,方言内部比较词典很少;地域分布呈现不平衡性;鲜见方言语法词典问世。编纂方面,收词原则和释义原则均存在较大分歧,使得某些词典收词时忽略了词汇的系统性和成组性,对"对音词"和同形异义等词的释义处理差异较大。此外,注音和词条注释均有失当之处。 相似文献
12.
13.
14.
针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采
用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程
度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利
统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。 相似文献
15.
进入新世纪以来,随着社会需求的变化和编纂手段的更新,汉语俗语词典的编纂工作开始逐步向现代辞书转向.在编纂的定位方面,汉语俗语词典力求多样化,从不同的方面精心策划来满足读者的需要.在编纂手段上,数据库技术支撑的大型真实语料库为词典的编纂提供典型语料,为归纳义项和编制例句提供很大便利. 相似文献
16.
17.
王宪洪 《大学图书情报学刊》2009,27(2)
文章探讨与分析网络词典的"在线"特性。网络词典的出现,改变的不仅仅是词典的载体形式。编纂和使用的互动性,改变了词典的编纂方法和出版流程;词典构成的集合性,扩展了词典的知识范围;内容上的动态性,淡化了词典作为"标准工具"的作用,增强了词典的参考功能。网络词典将会逐步改变人们利用词典查考问题的思维方式。 相似文献
18.
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%. 相似文献
19.
20.
汉英词典作为沟通中文与英语两种不同语言的桥梁,是中国与世界交流的工具。在信息时代飞速发展的今天,双语词典的自动构建技术在机器翻译和跨语言检索领域起着重要的作用,本文对双语词典的自动构建方法和其中的关键技术进行了比较全面的分析和总结,并提出一种从汉英平行语料库中抽取双语词语,自动构建双语词典的方法,在实现汉英句子级对齐后,对双语语料分别进行分词和词性标注处理,通过抽取汉英词语单元并计算其关联概率来实现汉英的词语对齐,最终生成双语词典。该方法在对真实语料的双语词典构建实验中取得了较好的结果,词对齐效果优于传统的IBM模型方法。 相似文献