首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文提出了一种基于条件随机场模型的汉语词性标注方法。该方法能够充分利用词的上下文信息作为特征。实验表明,该方法的标注效果明显优于基于隐马尔可夫模型和最大熵马尔科夫模型的方法。  相似文献   

2.
在利用条件随机场(CRFs)进行汉语词性标注时,特征模板的选取是非常重要的一个环节,本文设计了两组特征模板,选取Bakeofl2007的CTB、NCC、PKU三种语料,使用CRF+ +0.53工具包进行了对比实验,定量分析了影响词性标注的模板参数.通过实验得出以下结论:(1)词性标注的准确率与特征窗口大小不成正比,上文对当前词的词性的影响比下文要大,当前词的词性与其紧邻的前后两个词关系紧密;(2)产生的特征数多的模板训练较难进行;(3)词性转移特征对准确率有一定的影响.  相似文献   

3.
词性标注是中文信息处理领域中的一个重要研究课题。本文首先介绍了隐马尔科夫模型的表示形式和需要解决的问题,然后论述了HMM模型参数估计的方法,并对运用Viterbi算法进行词性标注的基本原理进行了深入的研究。  相似文献   

4.
面对逐渐被热议的语义角色标注,包括其实现方式以及其应用价值,都是自然语言处理工作中的难点和热点。本文通过介绍蒙古文语义角色标注研究办法,概述了蒙古文语义研究工作的基本情况以及蒙古文语料资源在蒙古文语义研究方面的利用情况,并对蒙古文语义研究工作发展的前景进行了展望。  相似文献   

5.
李海波 《现代语文》2010,(7):117-118
本文在对《老屋窗口》一文进行手工分词和词性标注的基础上,归纳总结了手工分词和词性标注存在的问题,为中文信息处理中的分词与词性标注提供一定的参考价值。  相似文献   

6.
词性自动标注是对语料在高层次上进行分析的一个重要组成部分,其结果可以用于很多自然语言处理应用程序当中。而维吾尔语和其它语言一样也存在词兼类现象。本文介绍了维吾尔语词性自动标注系统的设计思想和实现过程。该系统基于隐马尔科夫模型,采用Viterbi算法来进行词性自动标注。  相似文献   

7.
从现代汉语语文词典“词性标注”问题入手,以《现代汉语词典》和《现代汉语规范词典》的标注结果为主要研究对象,重点选取个别特殊成分讨论。主要探讨两个问题:一是词性标注的单位;一是“们”和“者”如何定性。标注词性首先要辨别词与非词。意义整体性和成分黏着性是词的两大显著特征。在现行的汉语语法体系框架内,“们”宜区分为词缀“们”和助词“们,”从而更全面地描写“们”的特点。“者”宜区分为词缀“者”和助词“者”。其中,“者”的助词用法仅在仿古语体中出现。  相似文献   

8.
作者认为无论在以《蒙古秘史》为代表的中世纪蒙古语中还是在现代蒙古语中,形动词附加成分—ga/—ge主要表示完成—持续体,而不是一般过去时。由于在现代蒙古语中形动词附加成分—ga/—ge的肯定形式较少出现,从而其语法意义在某些方面受限制,但在否定结构中可以附加各类动词,因此,其古老的语法意义和特征也保留得比较完整。根据有关资料可以断定蒙古语形动词附加成分—ga/—ge是由陈述式动词逐渐演变成形动词的。  相似文献   

9.
针对利用当前神经网络模型进行中文位置语义解析存在多义词解析效果差、泛化能力差等问题,提出一种基于BERT-BiLSTM-CRF模型的中文位置语义解析方法.首先利用BERT预训练模型对中文位置信息进行预训练,获取所有层中的上下文信息,增强中文位置信息的语义表征能力,然后通过BiLSTM模型提取向量特征信息,最后通过CRF...  相似文献   

10.
汪青青 《文教资料》2009,(18):202-204
先秦人名和现代人名的构成方式和上下文语境有很大不同.本文以先秦文献<春秋左传>为突破口,对书中的人名进行了统计分析,挖掘其内部特征及分布特征,并且利用CRF模型对先秦人名的识别进行了初步的尝试.在开放测试中,该方法取得了92.48%的准确率.  相似文献   

11.
词性标注是语言研究者进行句法分析和其他研究的基础,其划分是否得当直接影响着语料库的下一步建设。本文从句法分析实际操作的角度对国内几个常用分词系统的词性标记问题进行了对比分析,着重探讨了其中一些标记给句法标注带来的问题,如习用语和简称、前接成分和后接成分。针对这些问题,本文从实用的角度,在参考多方建议的基础上,提出了相应的标注策略。  相似文献   

12.
蒙古语族的“宾格附加成分”的复杂性在文献中受到了注意。托达叶娃说:关于用不用“宾格附加成分”的问题尚未得到解决,并没有正确的答复(即使是仅仅涉及蒙古语族的一个语言)。在什么样的场合下用或不用,这在蒙古语族的语法上是个困难的问题,这个问题直到现在还没有经过精密的研究。M·H·奥尔洛夫斯卡娅  相似文献   

13.
本文通过对十部对外汉语教材中生词词性标注现状展开分析考察,分析了现行教材进行词性标注的特点和做法,指出教材在词性标注方面存在的问题,如词性标注存在错误、词性标注的依据不明确等问题,讨论了特殊类别词汇的词性标注问题,如离合词、兼类词、属性词等如何标注词性以及词语和语言构式是否需要标注词性.最后提出了建立词性标注体系、优选标注语言符号等词性标注的原则和建议.  相似文献   

14.
替(Substitution),也和省略一样,是避免重复、连接上下文的手段之一.所谓替代,就是用替代词(Pro-Form)去替代句中的一些成分.替代大致可分为名词性替代(Nominal Substitution)、动词性替代(Verbal Substitution)、副词性替代(Adverbial Substi-rution)和从句性替代(Clausal Substitution).  相似文献   

15.
随着现代汉语语法理论研究的深入和词典编纂理论的发展,词性的标注问题得到了普遍的关注,不少词典开始标注词性。其中,对于词典词性标注问题,争议多存在于动词、形容词、名词之间的兼类与转类问题上。本文首先回顾词典词性标注的历史,然后从语言事实与外语教学等角度说明动转名的词性标注的必要性。  相似文献   

16.
利用条件随机场能够任意添加特征的优点,基于条件随机场模型在字粒度一级进行中文人名识别的研究.根据中文人名在文本中出现的基本特征和上下文特征,结合模型的综合性能,合理构造条件随机场的特征模板,在大规模标注语料上进行训练,统计中文人名在文本中的条件概率分布,获得模型参数,并采用序列标注的方式完成中文人名识别任务.多次闭合测试和开放测试结果表明,F值基本都高于90%.  相似文献   

17.
采用用户历史查询词构建用户画像时,现有向量空间模型存在特征稀疏和上下文依赖性强的问题。针对该问题,通过引入 LDA 主题模型,首先提取查询词潜在主题,得到查询词对应的主题分布;然后将概率最大的主题对应的词扩充到原始特征空间中,丰富用户特征;最后采用 SVM 分类算法对用户基本属性进行分类,构建用户画像。实验表明,利用 LDA 模型对用户特征进行扩展比传统向量空间模型用户画像精度提高了 1.6%。  相似文献   

18.
由于汉语词类问题的复杂性,辞书标注词性困难重重。《现代汉语词典》第5版在继承前版的基础上,增加了词性标注。但是,由于主客观因素的影响和制约,其词性标注难免还存在一些失当之处,主要有:一、词性标注不够准确;二、词性标注前后矛盾;三、兼类词词性标注不全面;四、同类词词性标注不一致。笔者抽取一些具体的词,对上述问题进行分析探讨,并提出自己的看法。  相似文献   

19.
对机器自动词性标注技术领域的三类主要理论方法(基于规则的方法、基于统计的方法和规则与统计相结合的方法)进行了研究分析和优缺点的对比,并在描述方式、标注依据、机器效率、鲁棒性、标注正确率和实用性等方面,对这三类方法进行认真的比较。比较结果显示规则与统计相结合的方法在各方面都占有较明显的优势,是目前最理想的标注方法。基于此类方法的自动词性标注技术可以较好地满足实际应用的要求。此外,本文还指出这类方法有待解决的三大难题。  相似文献   

20.
情绪智力研究领域存在着以能力模型、混合模型、胜任特征模型和特质模型为代表的诸多理论模型。不同理论模型在情绪智力的"定义"和"内容"两个根本问题上存在着很大的分歧甚至对立。这种现象导致了学界对情绪智力概念的怀疑与批评,认为它所涵盖的内容缺乏清晰的界限,可能并不是一个具备合法性与科学性的真实概念。为了推动情绪智力理论与实证研究的进一步发展,需要对情绪智力理论进行整合。从理论和方法学上看,整合情绪智力理论也存在三方面的依据:(1)情绪智力已被证实是与其他智力概念和大五人格不同的独立概念;(2)不同情绪智力理论模型皆包含着"对情绪的感知、理解和运用"这一共同要素;(3)表现测验和自陈测验两种不同测量方法是导致能力模型与特质模型相关较低的主要原因。推动情绪智力理论的整合则可以分为三个步骤:(1)通过内容分析方法和从效标出发的策略确定情绪智力的内容或成分;(2)将情绪智力的内容或成分构建为一个"基本情绪能力-情绪与社会胜任特征连续体";(3)采用验证性因素分析方法,对情绪智力理论模型进行检验、修改与完善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号