首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
针对FIHC文本聚类算法基于频繁词集实现聚类而未考虑词语间潜在语义联系的缺陷,对FIHC算法进行了有效改进。通过把基于知网的语义相似度计算方法归并到FIHC的Score函数中,有效的改善了score函数单纯的基于向量空间模型的不足。通过实现证明,改进后的FIHC算法明显的提高了聚类质量。  相似文献   

2.
国内利用知网计算中文词语相似度通常采用基于义原距离的方法,这些方法依赖于公式设计和参数选取。根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算词语所包含的义原信息量,将义原及其角色关系的信息量作为词语相似度计算的基本单位,通过计算两个词语的共有义原及其角色关系的信息量和所有义原及其角色关系的信息量的比值来综合计算词语的相似度。实验结果证明,该方法合理可行。  相似文献   

3.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

4.
文本相似度计算是文本分类、文本聚类、自动文摘、信息抽取的基础.文本相似度计算性能直接影响到文本分类、文本聚类、自动文摘的质量.另外文本相似度还应用于诸多自然语言处理任务中,本文对文本相似度计算问题进行了深入的研究,并根据自然语言的特点提出了通过比较两个文本关键语义对来计算文本的语义相似度.  相似文献   

5.
一种基于知网的语义相关度计算方法   总被引:1,自引:0,他引:1  
本文以知网理论相似度计算为基础,提出了一种计算词语相关度方法;该方法将知网中不同特征文件间的义原通过其解释义原与其它特征文件中的义原建立联系,进而计算它们之间的相关度,并用该方法提取文本特征,实验结果表明,该方法更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了计算结果的精确度和准确性.  相似文献   

6.
利用深度学习方法进行情感分析时,将文本作为一个整体进行编码,缺乏对表情符号与情感词的有效关注。而传统基于词典的方法则过分依赖于情感词典与判断规则的质量,不能充分考虑文本深层语义关系。针对该问题,构建融合表情符号与情感词的自注意力模型。通过BLSTM训练得到情感符号,并与文本特征向量融合,同时引入结构化自注意力机制识别文本中不同情感符号的情感信息。在NLPCC2014和微博公开语料数据集上的实验表明,相较传统情感分析方法,该模型可有效提高情感分类准确率。  相似文献   

7.
基于《知网》语义知识资源,提出一种基于问句相似度计算的问答社区问题去重方法。通过计算已有问题集合中问题间的语义相似度,将其中重复度较高的问题进行筛选并去除,从而提高用户获取所需信息的效率,改善用户体验。在“爱问知识人”的真实问题集上的实验结果表明:该方法获得了较好的去重效果。  相似文献   

8.
以FiIlore的框架语义学为理论基础的FrameNet,旨在通过对真实语料的分析和研究,建立起可以从不同的视角理解词义的语义框架。它指出对于词义的描述必须与其所在的认知概念框架相联系。FrameNet将每个词都放到不同的场景之中,形成每个词的语义框架,这样使用者在使用的过程中可以在头脑中构建出一个完整的语义框架,对于词义的理解自然也就比较深刻。而这正是目前传统的字典所需要加以完善之处。鉴于柯林斯COBUILD英语词典也是基于真实语料库所编纂的,两者在语料来源的本质方面不谋而合。本文选取两者进行对比,以期FrameNet可以对未来的词典编纂有所启示。  相似文献   

9.
以在线词典里的各种语义知识和语义关系为基础,设计并实现一个处理"A is B"型的英文隐喻自动处理系统。该系统采用JAVA语言来编写,包含语句预处理子系统,数据库管理子系统,词义检索子系统,词语相似度计算子系统。系统设计通过仿真实验来验证其可行性,证明了研究的实用价值。并提出了研究的不足及今后的研究方向。  相似文献   

10.
王璐 《考试周刊》2011,(16):108-110
框架语义学是一种通向理解和描写词语和语法结构的意义的途径。为了理解语言中词语的意义,必须先具备概念结构,即语义框架的知识。本文从框架理论出发研究同义词,将同义词辨析置于动态的认知框架之中,认为同义词意义的差异源于不同的框架。因此,在教学过程中,教师可通过阐释法、对比法、翻译法、引导学生分析同义词的框架差异,促进学生对同义词的语义区分与正确使用。基于框架理论的同义词分析与研究为同义词的教学提供了新视角。  相似文献   

11.
表示词义的单义义项在语言实际中的应用表现在各个方面。多义词在具体语境中一般只使用一个具体的义项,同义词、反义词一般是指一组词的某个义项之间的相同相近或相反相对,词库词、词典词、应用词中的义项各不相同。义项在词汇量测量、词频统计及语言教学中都有重要意义。  相似文献   

12.
中日现代语言通用汉字词各义项在两种语言中的使用情况一直是学界关注的难题。基于高频中日同形词的研究结果表明,利用BERT词向量技术对日语目标词义项统计的平均准确率达到了90%,最高达到97%;对汉语目标词义项统计的平均准确率达到了88.3%,最高也达到97%,利用词向量技术对中日汉字词汇语义开展计量研究具备可行性。同时研究还发现,传统词典义项设立的科学性、例句规范性和句长等因素都会对基于词向量的语义分析产生影响。  相似文献   

13.
本文着重从以下角度考察了低龄儿童词义理解的发展规律:词义理解与目标语的属性偏差以及词义理解度的发展。儿童的词义理解与目标语之间存在着属性偏差,主要表现为具体性而非概括性,变异性而非稳固性;儿童词义理解度的发展大体经历了由部分语义成分到全部语义成分、由常用义到派生义、由色彩义到理性义的发展阶段。本文的结论是在个案追踪调查的基础上得出的,相信这项工作能够给早期教育一些启发。  相似文献   

14.
以认知语言学为理论基础,通过参照辞典释义和归纳总结的方法,明确了「手」合成词的语义范畴并对其语义扩展机制进行了尝试性的分析研究。通过分析发现,「手」合成词语义范畴中表示"与手有关的各种物品和工具"的绝大部分词汇是在具备了"空间相似性"、"形状相似性"和"功能相似性"的基础上通过隐喻机制扩展而来。多义现象是通过人类认知手段由一个词的原型义项向其他意义延伸的过程。延伸的模式是"辐射式"与"连锁式"并存的"仙人掌式"结构。  相似文献   

15.
词义与概念的关系在认识上存在着一定的分歧,根源在于人们对词、词义与概念三者的关系认识不清。词与概念的关系不同于词义与概念的关系,词义与概念既有同一性,又有本质的区别。这一理论观点对解决语文词典释义的相关问题起着重要的指导作用。  相似文献   

16.
互联网的飞速发展为大众带来便利的同时也产生了大量冗余信息,利用自然语言处理技术对新话题文章进行提取,控制新话题中虚假新闻传播,可为舆情控制提供有效支持。提出一种基于词聚类信息熵的新闻提取方法,并对“一带一路”相关新闻语料进行实验。实验通过网络爬虫的方式获取相关报道,利用Pkuseg工具分词进行一系列预处理后训练生成Word2vec词向量,然后利用词频统计筛选出历史高频词进行K-means聚类,将聚类后的词簇作为随机变量计算当前文章的信息熵。若文章的信息熵高于设定阈值,则为新话题文章,需要重点关注。结果表明,该方法在阈值设置为0.65时,新闻提取结果的准确率可达到84%。  相似文献   

17.
与其他类型复合词相比,联合型复合词的语素序列受语法关系直接制约的程度要低一些,而其他制约因素却要多一些,复杂一些.从结构形式、语义关系和词义类型等角度可以观察到此类复合词语素序列制约因素的多元性及其作用的灵活性.这类复合词的语素序列是历史积淀的结果,在共时的状态下,它的制约性会通过各种渠道表现出来;这样,既可以用来解释已有的序列面貌,又可以通过语素意义在词化过程中的演变轨迹所提供的线索,去更深刻地认识、理解、掌握和运用联合型复合词.  相似文献   

18.
方金华 《台州学院学报》2012,34(1):15-17,27
汉语的词义是成系统的,词义在演变中,其语义场内部要素也发生了相应动态的调整,这在一定程度上显示了词义的系统性。先秦时人们睡眠或直体横陈,睡在床上;或趴在几上睡。由于几这种卧具在后代消失,睡眠语义场在睡眠方式上不再强调卧具的对立,只保留睡眠状态上的内部对立。这揭示了汉语词义系统在发展中为了维护平衡而采取内部调整的语言现象。  相似文献   

19.
词汇学习是英语教学的重要组成部分。本文在词的语义分类基础上进行英语一词多类 ,一词多义 ,同义词 ,反义词的比较 ,分析词义比较教学法在词汇教学中的重要作用。指出词义比较教学法能够从多方面促进英语词汇教学水平的提高 ,帮助学生在语言习得的过程中更好理解词义 ,掌握词义的变化 ,提高学生的语言能力  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号