首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于中文语义词典的语义相关度方法比较研究   总被引:3,自引:1,他引:2  
词语语义相关度的计算,一种比较常用的方法是使用分类体系的语义词典,而国内外学者已经提出了多种基于语义相关的度量方法。这些方法对于词典和语言环境的依赖性是一个值得研究的问题。本文汇总了多种基于语义词典的方法,全面地概括分析了这类方法的特点。基于哈尔滨工业大学信息检索实验室提供的《同义词词林》扩展版,本文在真人单词对相关度判断实验中比较了多种方法的效果,从而找出了《同义词词林》扩展版中的较好方法。  相似文献   

2.
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。  相似文献   

3.
面向信息检索的汉语同义词自动识别和挖掘   总被引:3,自引:0,他引:3  
为了提高同义词自动挖掘的效率,本文提出了从词典释义中自动识别和挖掘同义词的方法,使用超链接分析算法和模式匹配算法,从不同的角度提取同义词:第一部分是把词汇之间注释与被注释的关系看成是一种链接关系。对给定的词汇进行分析,把与给定词汇具有链接关系的所有相关词汇构造一个词汇图,图中的每一个节点代表相关词,每条弧代表了词汇之间注释与被注释的关系。利用超链接分析方法并结合PageRank算法,计算词汇的PageRank值,把PageRank值看成是体现词汇之间语义相似性的衡量指标,最后为每一个词汇生成候选同义词集,并通过一定的筛选原则和方法,推荐出最佳的同义词。第二部分是利用词汇定义模式,对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法识别和挖掘同义词。此外,利用模式匹配方法对Web网页和期刊论文中的同义词也进行了挖掘测试。测试结果表明,利用模式匹配和超链接分析方法来自动识别和挖掘同义词具有可行性和实用性。  相似文献   

4.
本文提出了一种基于WordNet的概念格间语义相似度计算方法,该方法利用WordNet中各词汇之间的结构关系,参考其各词汇间的距离、密度、深度来计算各概念间的语义相似度来反映概念间的语义关系,然后根据概念与其他的概念格中的语义相似度来计算两个概念格间的语义相似度,为以后的研究做准备。但是这种方法尚不完善,需进一步进行扩展与改进。  相似文献   

5.
框架元素语义类型的确定对于增加本体的语义信息及其建立本体之间的映射具有重要作用.探讨了利用WordNet中词汇的丰富语义等级结构,自动确定框架元素语义类型的方法,提出了同义词扩展、上位词扩展的确定思路,并引入Wu-Palmer语义相似度算法,同时考虑WordNet及FrameNet不同的语义深度,以帮助有效地选择框架元素语义类型.  相似文献   

6.
张瑾 《情报科学》2013,(8):71-76
基于《中图法》的语义本体相似度计算,是结合《中图法》内容和结构体系,利用语义逻辑关系等手段,进行语义相似度计算,而建立的推理规则能较好地体现词语之间的语义关系,提高了词语相似度的计算精度。  相似文献   

7.
盛秋艳 《情报科学》2012,(8):1238-1241
本体技术作为一种能在语义和知识层次上描述概念体系的有效工具,给词语间相似度计算带来了新的机会。词语相似度的研究,是知识表示以及信息检索领域中的一个重要内容。本文利用本体来组织概念,计算概念之间的语义相似度,将语义相似度分成概念相似度和描述相似度,把概念相似度和描述相似度进行合并,生成最终的语义相似度。依据《中国分类主题词表》建立的计算机领域本体,验证了语义相似度计算方法的有效性。  相似文献   

8.
程亚男  王宇 《情报科学》2018,36(8):72-76
【目的/意义】目前问答社区答案数量多且篇幅长,对答案进行重新排序和组织可以方便用户高效获取答案 信息。【方法/过程】针对答案文本的特点,提出基于答案相似度对社区答案进行重新组织、排序的方法。该方法定 义答案文本语义云和情感云,利用标签传播算法计算出词典中不存在的词语语义和情感相似度,即云滴值,然后每 个答案形成多片语义云和一片情感云,通过计算答案云间相似度得到答案文本间的相似度。最后,结合答案“赞” 数对答案进行重新排序。【结果/结论】通过实验的人工评价,发现与基于“赞”数排序相比,基于语义情感相似度的 答案排序方法与人工排序相似度更高,更能满足社区用户需求。  相似文献   

9.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

10.
基于语义相似度的信息检索研究   总被引:2,自引:0,他引:2  
如何准确表达用户意图,判定概念实体之间的语义相似度是语义信息检索技术中的一个重要研究方向.综舍考虑实例多重继承关系及属性值的层次关系,提出了一种语义相似度计算方法,并利用继承关系的树状结构特点对语义相似度的计算过程进行了优化.在实例多重继承关系相对复杂的情况下准确率提高更加明显.实验表明本文提出的算法,在本体知识库的多种组成情况下,均能有效地提高相似度的计算准确率.  相似文献   

11.
介绍了当前国内外有关词汇语义相似度算法的研究现状,分析并对比了几种具有代表性的计算方法,并将几种常用的词汇语义相似度算法应用于FAQ中,分别采用准确率、召回率、F值以及MRR、MAP5个指标进行评价,根据相似问句的检索效果判断各词语相似度算法的优劣。  相似文献   

12.
[目的/意义]专利引文分析是专利分析研究的重要内容。传统专利引文分析仅分析专利文献中明确标示的物理引用专利数据,不能够准确真实反映专利之间的引用关系,难以准确揭示专利之间的技术相似度。专利语义引用识别有利于准确真实揭示专利间的潜在语义联系,为专利的继承与创新评价提供参考,有助于专利授权前的专利审核和专利授权后的专利评价。[方法/过程]首先,基于规则和句法分析抽取了专利的特征知识元;其次,利用Sentence-BERT和Word2Vec对专利特征知识元及专利标题摘要文本进行向量化表示;再次,根据余弦相似度计算专利的特征相似度和整体相似度,结合专利申请日期的先后顺序得到专利的语义引用专利集;最后,采用量子计算领域专利数据进行了实验研究。[结果/结论]该专利语义引用识别方法能够实现语义引用专利的有效识别,有利于评价专利的技术新颖性、创造性和实用性,为专利审核和专利价值评估工作提供支持。  相似文献   

13.
[目的/意义] 从关键词语义类型和学术文献老化两个维度出发挖掘学术论文价值,为学者推荐符合其研究需求并在时间维度上具有较大参考意义的学术论文。[方法/过程] 首先,将学术论文关键词按语义类型进行划分|随后,基于共现关系计算同类型关键词间相似度,基于关键词相似度得到论文在语义类型上的相似度|然后,借用文献老化思想,计算不同类型论文的时间价值|最后,结合论文在语义类型上的相似度及时间价值,生成论文推荐列表从而进行推荐工作。[结果/结论] 实证结果表明,使用该方法推荐的论文,一方面与学者研究方向相符|另一方面在时间维度上也具有较大价值,推荐的论文质量较高。  相似文献   

14.
探讨了词元库对汉语框架网络知识库应用的影响,提出了利用同义词词林,采用基于语用的向量空间相似度计算实现词元扩充的方法,并对词元扩充的实现思路作了深入分析.  相似文献   

15.
高楠  高嘉骐  陈洪璞 《情报科学》2023,(3):127-135+172
【目的/意义】通过综合使用论文和专利数据源,开展新兴技术的识别与演化路径方法研究,期望以此提高学科领域新兴技术探测研究的准确性和科学性。【方法/过程】首先,针对集成电路这一特定领域使用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,并利用LDA主题模型发现并识别集成电路领域隐含的技术主题,构建新颖度、强度和热度等多维指标对新兴技术进行对比和甄别。其次,划分时间窗,采用余弦相似度算法计算相邻时间窗内主题间的相似性,以可视化路径的形式将筛选结果进行呈现,以此判断主题演化关系类型。【结果/结论】研究发现,集成电路领域呈现学界与业界研究成果相互促进的良好态势,结合论文与专利数据的新兴技术识别方法,可以有效且清晰的发现集成电路研究领域的热点型、增长型、成熟型和潜在型技术主题,并通过新兴技术演化路径的构建,揭示了领域科学与技术间知识的交互与转移。【创新/局限】本研究创新性采用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,提高了词袋构建质量,为后续基于LDA主题模型识别隐含的技术主题奠定了基础,但在数据源的多样性、时滞性问题,以及模型阈值设置的客观性上还存在局限性,需要...  相似文献   

16.
李宗俊  范炜 《情报科学》2021,39(7):186-192
【目的/意义】智慧数据是数据资源价值挖掘的承载,其中语义丰富化方法是促成智慧数据的重要手段。语 义丰富化方法及相关实践为智慧数据建设提供参考与借鉴。【方法/过程】从语义丰富化方法的技术角度出发,梳理 语义丰富化与关系型数据库、本体以及关联数据的关系,继而对语义丰富化在医学健康、数字出版、文化遗产等领 域的应用实践展开分析和归纳。【结果/结论】语义丰富化是利用语义网以及文本挖掘、相似度计算等相关技术将数 字资源中隐含的语义关系显性化,并在不同的资源间构建语义链接,促进数字资源的互通、互联与集成。由于数字 资源语义化层次、粒度与面向领域等存在的差异,智慧数据的实现需要语义丰富化诸多方法的有效集成框架。【创 新/局限】本文分析了数据网络中数字资源向数据资源转化的新方法,但仅局限于语义丰富化在部分领域中的应 用,还需丰富和扩展资料,总结语义丰富化的框架和应用分析。  相似文献   

17.
本文利用统计翻译模型计算单词之间的语义相似度,并将此语义信息嵌入至核函数,实现了一个基于语义核函数的问句检索系统,利用语义核函数计算问句之间的语义相似度。通过在真实问答对数据上进行的实验,表明基于语义核函数的问句检索模型的效果优于传统的相似度计算模型,可以提高问句语义匹配准确率,具有一定的实用性。  相似文献   

18.
定量化语义关系的判断是地理数据处理的关键,也是地理本体建模与表达的难点,土地利用数据作为典型的专题性地理数据,其语义特征上的邻近关系如何,是土地资源统计、整理、规划、管理和开发需要关注的问题。针对土地利用数据的语义特征,从《土地利用现状分类》的依据出发,结合其权属特征,建立了土地利用数据语义特征的多细节层次表达模型;随后应用特征匹配的方法,通过计算其在权属、覆盖成因、覆盖类型、用途、利用状态、植被类型、附着物性质、利用方式等方面的匹配关系得到土地利用数据语义邻近度的具体度量值,实现土地利用数据从语义建模到邻近度计算的整个过程。在试验中则以具有不同语义特征的土地利用数据实体为例进行语义邻近关系计算,并将试验结果与实际经验判断进行比较,证明该模型具有较强的实用性,计算结果符合人类的认知。  相似文献   

19.
[目的/意义]针对技术功效图构建过程中的主要问题和薄弱环节,提出了一种基于SAO结构和词向量的专利技术功效图构建方法。[方法/过程]利用Python程序获取专利摘要中的SAO结构,从中识别技术词和功效词;结合领域词典与专利领域语料库,运用Word2Vec和WordNet计算词语间的语义相似度;利用基于网络关系的主题聚类算法实现主题的自动标引;采用基于SAO结构的共现关系构建技术功效矩阵。[结果/结论]实现了基于SAO结构和词向量的技术功效图自动构建,该构建方法提高了构建技术功效主题的合理性和专利分类标注的准确性,为技术功效图的自动化构建提供新的思路。  相似文献   

20.
易明  秦涵  蒋武轩 《情报科学》2020,38(2):29-38
【目的/意义】基于标签系统所蕴含的语义信息与隐性社会网络,构建融合标签概念空间及用户网络的语义社 团发现模型,提高社团发现的质量。【方法/过程】通过构建标签的概念空间挖掘标签间的语义关系,并根据标签包 含的隐性社会网络发现用户网络,进而将两者结合融入到社团发现算法中,并以豆瓣网数据对模型进行实证。【结 果/结论】标签概念空间及用户网络能够提升语义社团发现算法效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号