排序方式: 共有78条查询结果,搜索用时 46 毫秒
41.
42.
从Wikipedia 中获取本体:原理与方法研究 总被引:1,自引:0,他引:1
Wikipedia 作为一个大型的知识库,正逐渐被人们应用于不同的领域.在本体构建领域,Wikipedia 以其丰富的组织结构为大规模协作式的本体学习提供了有效的环境,利用Wikipedia 进行本体学习逐渐成为一个新的研究热点.本文从这一角度出发,在剖析Wikipedia 基本结构的基础上,分析和比较了从类别结构图、信息盒和定义句中获取本体概念和实例的相关原理和方法,阐述了利用Wikipedia 获取本体关系的原理,分析了基于结构特征、基于词典、基于句法和基于混合方式的模式匹配方法,以及基于结构特征和文本特征的统计学习方法,并对利用各种方法获取本体关系的效果进行了比较. 相似文献
43.
介绍命名实体识别的基本概念,分析两种命名实体识别的基本方法:基于规则的命名实体识别方法和基于统计的命名实体识别方法,并以最大熵模型为理论基础,对中文菜名识别进行实证研究。根据中文命名实体的特点,设计6种特征模板。实验结果表明,在简单特征模板的基础上增加标注特征能有效提高命名实体的识别效果。对改进识别效果有用的特征依次为:标注特征、词性组合特征、后向词性依赖特征和词形特征。 相似文献
44.
45.
针对面向结构特性的科技文献分类问题,通过关联规则的分类方法将科技文献划分为不同的类型:综述型、理论型和应用型。首先对科技文献数据分词等进行预处理;然后通过PredictiveApriori关联算法挖掘关于类别特征项的频繁项集,构造科技文献分类的分类器;接着对分类科技文献进行分类规则匹配,判定所属类别;最后通过实验对分类性能进行评估,并通过对比证明了本方法的有效性。 相似文献
46.
47.
49.
[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary,OOV),同时避免摘要重复,提高文本摘要的质量,本文以解决OOV问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence,seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attention mechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE (recall-oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。 相似文献
50.
随着大数据的迅速发展,知识网络在不同语言、不同领域和不同模态等情境下呈现高度多样性和复杂性,如何对齐与整合多源情境下的异构知识网络,成为研究者所面临的严峻挑战。本文在知识网络深度表示学习的基础上,提出一种由知识网络构建、跨语言网络表示学习和统计机器学习三个模块构成的知识网络对齐(knowledge network alignment,KNA)模型。为验证模型的有效性,在中英文双语知识网络数据集上开展实证研究,借助于网络表示学习算法将异构知识网络表征到同一空间,利用已知的对齐链接来训练统计机器学习模型,并通过模型来预测未知的节点对齐链接。KNA模型在跨语言共词网络对齐任务中取得Precision@1值为0.7731,高于基线方法 (0.6806),验证了KNA模型在跨语言知识网络对齐上的有效性。研究结果对于改进知识网络的节点对齐效果,促进多源情境下的异构知识网络融合具有重要意义。 相似文献