首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 423 毫秒
1.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息 的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型- 向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜 在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元 共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权 CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/ 结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元 CLSVSM。  相似文献   

2.
[目的/意义]针对技术功效图构建过程中的主要问题和薄弱环节,提出了一种基于SAO结构和词向量的专利技术功效图构建方法。[方法/过程]利用Python程序获取专利摘要中的SAO结构,从中识别技术词和功效词;结合领域词典与专利领域语料库,运用Word2Vec和WordNet计算词语间的语义相似度;利用基于网络关系的主题聚类算法实现主题的自动标引;采用基于SAO结构的共现关系构建技术功效矩阵。[结果/结论]实现了基于SAO结构和词向量的技术功效图自动构建,该构建方法提高了构建技术功效主题的合理性和专利分类标注的准确性,为技术功效图的自动化构建提供新的思路。  相似文献   

3.
李保珍  苏菁 《情报科学》2018,36(10):13-19
【目的/意义】基于专业性多源网络数据,构建同质性或异质性领域知识图谱。【方法/过程】基于场景性关键 词相似度计算进行同质网络层次聚类,揭示症状的同质性网络层次以及治疗方案的同质性网络层次;基于 2-mode 共现矩阵进行异质网络聚类,兼顾症状及治疗方案的关联关系,通过设置不同阈值揭示其异质关联性网络层次。 【结果/结论】基于聚类纯度及熵值评价指标,实验结果显示:就纯度评价指标而言,进行同质性网络知识图谱分析 较为合理;就熵值指标而言,进行异质性网络知识图谱分析较为合理。  相似文献   

4.
【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联 网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了 解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然 后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦 点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。 【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚 类效果,有效的获取各阶段的话题焦点。  相似文献   

5.
李旭晖  周怡 《情报科学》2022,40(3):99-108
【目的/意义】关键词抽取的本质是找到能够表达文档核心语义信息的关键词汇,因此使用语义代替词语进 行分析更加符合实际需求。本文基于TextRank词图模型,利用语义代替词语进行分析,提出了一种基于语义聚类 的关键词抽取方法。【方法/过程】首先,将融合知网(HowNet)义原信息训练的词向量聚类,把词义相近的词语聚集 在一起,为各个词语获取相应的语义类别。然后,将词语所属语义类别的窗口共现频率作为词语间的转移概率计 算节点得分。最后,将TF-IDF值与节点得分进行加权求和,对关键词抽取结果进行修正。【结果/结论】从整体的关 键词抽取结果看,本文提出的关键词抽取方法在抽取效果上有一定提升,相比于TextRank算法在准确率P,召回率 R以及 F值上分别提升了 12.66%、13.77%、13.16%。【创新/局限】本文的创新性在于使用语义代替词语,从语义层面 对相关性网络进行分析。同时,首次引入融合知网义原信息的词向量用于关键词抽取工作。局限性在于抽取方法 依赖知网信息,只适用于中文文本抽取。  相似文献   

6.
[目的]利用向量空间描述语义信息,研究基于词向量包的自动文摘方法;[方法]文摘是文献内容缩短的精确表达;而词向量包可以在同一个向量空间下表示词、短语、句子、段落和篇章,其空间距离用于反映语义相似度。提出一种基于词向量包的自动文摘方法,用词向量包的表示距离衡量句子与整篇文献的语义相似度,将与文献语义相似的句子抽取出来最终形成文摘;[结果]在DUC01数据集上,实验结果表明,该方法能够生成高质量的文摘,结果明显优于其它方法;[结论]实验证明该方法明显提升了自动文摘的性能。  相似文献   

7.
李枫林  柯佳 《情报科学》2019,37(5):155-165
【目的/意义】词是语言的最小单元,词的向量表示决定了机器学习模型的构建方法。深度学习的神经网络 训练得到的词向量,通过无监督的机器学习方法从海量数据中自动学习词汇的语义特征,无需人工标注和复杂繁 琐的特征工程,端到端的完成各种自然语言处理任务,带来了一种新的研究范式,成为学术界的研究热点。【方法/ 过程】介绍了词向量语义表示及优化方法,存在的问题及解决方法,最后指出了词向量未来的研究方向。【结果/结 论】将句法特征、词形特征、(知识库)先验语义知识融入到神经网络模型能增强词向量的语义表示能力,针对词向 量存在的一词多义、解释性差等问题,总结了最新的研究成果。  相似文献   

8.
【目的/意义】使用人工或常用软件工具获取本体概念及概念间关系已无法满足自媒体环境下大数据的本 体构建及维护的要求,本文尝试用自动或半自动方式予以实现。【方法/过程】对电子商务领域原始语料进行分句、 分词等预处理,构建领域语料库;使用基于语言学以及统计学的方法提取电子商务领域本体概念,同时提出基于混 合策略的本体概念抽取方法;然后使用基于语言学、聚类的方法提取电商领域本体概念与概念之间存在的分类关 系,使用基于关联规则挖掘的方法抽取其本体概念与概念之间存在的非分类关系。【结果/结论】将文本挖掘与本体 构建结合起来,提出了领域本体概念及概念间关系自动抽取与本体构建方法,实验表明使用本体框架 Jena利用此方 法可以自动构建电子商务领域本体,并可将其应用到通用的语义检索系统中。  相似文献   

9.
【目的/意义】从海量微博信息中提取准确的主题词,以期为政府和企业进行舆情分析提供有价值的参考。 【方法/过程】通过分析传统微博主题词提取方法的特点及不足,提出了基于语义概念和词共现的微博主题词提取 方法,该方法利用文本扩充策略将微博从短文本扩充为较长文本,借助于语义词典对微博文本中的词汇进行语义 概念扩展,结合微博文本结构特点分配词汇权重,再综合考虑词汇的共现度来提取微博主题词。【结果/结论】实验 结果表明本文提出的微博主题词提取算法优于传统方法,它能够有效提高微博主题词提取的性能。【创新/局限】利 用语义概念结合词共现思想进行微博主题词提取是一种新的探索,由于算法中的分词方法对个别网络新词切分可 能不合适,会对关键词提取准确性造成微小影响。  相似文献   

10.
中文本体的自动获取与评估算法分析   总被引:6,自引:0,他引:6  
在下一代互联网,即语义网中,信息模式建立在本体描述之上。由于手工构建本体是一项工作量巨大并且繁杂的任务,因而,能否自动构建本体正逐渐成为语义网使用的关键性要素。在这样的背景下,本文对比和借鉴了国内外本体自动获取的方法和思路,将中文领域本体的提取划分为文本预处理、本体抽取和本体关系获取三个阶段。接着,本文讨论了这三个步骤所涉及的算法,包括基于统计模式对文本抽词、基于奇异值分解从词—文档矩阵中提取本体、基于语义相似度对本体进行聚类等。对于本体自动获取的效果评估,本文提出了利用计算手工和自动两种方式得到的本体相似度来进行衡量的思路。  相似文献   

11.
本文提出了利用后缀树模抽的最大相似度优先聚类方法,通过构造文档集的广义后缀树模型抽取短语作为特征项并映射到M维向量空间模型;计算文档间的相似度矩阵,对任意两个文档之间的相似度进行降序排列,优先合并具备最大相似度的文档对形成初始聚类;合并初始聚类得到最终聚类结果。  相似文献   

12.
吕建新  郑伟  马林  李明  谷翠梅 《情报科学》2019,37(12):47-51
【目的/意义】现有特征选择方法可以计算特征所携带的类别信息量,但却不能计算出与主题相关的语义信 息。针对其不足,为了提高分类准确率,提出一种基于词向量语义扩展的特征选择方法。【方法/过程】该方法引入 了词向量进行主题语义计算,筛选出具有类别语义信息的词条实现特征候选集的特征扩展,并采用K近邻分类方 法进行分类实验。【结果/结论】实验结果显示新方法能够有效提取主题语义特征并提高分类准确率。  相似文献   

13.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

14.
李湘东  阮涛  潘练 《情报科学》2018,36(4):14-21
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。  相似文献   

15.
【目的/意义】针对基于关键词的科技文献聚类研究进行了一些探讨,包括:使用具有不同特征的关键词来 实现文献聚类在效果上有何差异;如何按特征对关键词进行选择来提高文献聚类效果。【方法/过程】按照关键词词 频与语义类型特征设置对照组进行实证研究,观察其对文献聚类密度及文献语义表示效果的影响。【结果/结论】单 独使用具有超高频、次高频、研究主题或限定范围特征的关键词进行文献聚类能使聚类密度较为合适;超高频特征 通常在其他频次中都具有体现,次高频词能同时反映不同频次的关键词特征,但次高频词对中频词特征的表示不 够全面;将语义类型不同的关键词分开来实现文献聚类,其效果好于将关键词进行组配,语义类型不同的关键词间 存在互斥性。【创新/局限】本文发现了在以关键词间的共现关系为基础来进行文献聚类时单独选择次高频或某一 语义类别的关键词来实现文献聚类具有较好效果,但缺少对关键词间语义结构关系的进一步研究。  相似文献   

16.
王凯 《现代情报》2021,41(1):39-49
[目的/意义] 构建基于用户兴趣标签的网络社团识别模型(Fuzzy Interests and User Hybrid Model,FIUHM),揭示用户兴趣与社团形式概念间的模糊层级关系,实现多粒度属性与社团拓扑结构的层次聚类。[方法/过程] 通过抽取豆瓣电影社区数据,实现基于用户标签的兴趣强度语义标注,利用用户相似度,获取社区用户间兴趣语义距离;将网络社区的领接矩阵映射为社团形式背景,构建社团模糊概念格,建立社团形式概念及其偏序关系集,完成社团形式概念建模;通过计算社团稳定指数,识别网络社团边界,并聚类最大独立社团,实现兴趣社团的在线检测。[结果/结论] 通过对比实验,验证了FIUHM模型的有效性,实验表明将模糊形式概念分析引入网络社团识别研究,利用模糊概念格的偏序关系建模用户节点间的兴趣相似度,有利于提高社团识别的分辨率。  相似文献   

17.
[目的/意义]本文探讨挖掘技术和应用间的关联关系,便于把握技术的目标应用场景和了解应用需求的可选技术方案,为技术转化提供基础。[方法/过程]首先,建立基于改进GloVe词向量的"技术——应用"发现模型,提出改进词向量的算法;然后,以机器学习技术为例,获取该领域学术论文文摘数据,预处理后建立训练文本集合,再使用改进GloVe模型训练获得词向量;最后,对词向量聚类获得"技术"和"应用"类词汇集,通过共现获得两者之间的关联并分析。[结果/结论]实验结果表明,本文改进GloVe模型后训练的词向量性能获得提升,聚类效果好,最终实现"技术——应用"的关联分析。  相似文献   

18.
【目的/意义】文献计量学方法是研究学科发展趋势、捕捉学科前沿热点的一种定量化的方法。共词分析是 一种重要的文献计量学方法,一般将作者选定的关键词作为最常用的词源。但科技论文中作者给出的关键词个数 有限,会存在缺失或者不能充分表达主题等情况,从而导致丢失一些重要的共现关系。【方法/过程】本文采用组块 分析的方法从文章标题中提取短语或词作为作者给定关键词的有益补充。【结果/结论】以中文句法分析领域的文 献作为研究对象进行实验,结果证明增补后的关键词列表增加了共现关系,优化了聚类结果。最后对中文句法分 析领域发展趋势及研究热点进行了分析。  相似文献   

19.
赵文娟  刘忠宝  郭慧 《情报科学》2019,37(5):108-114
【目的/意义】传统的信息检索技术主要是基于关键词匹配的信息推送,该方法容易出现漏检和误检的情 况。语义检索通过语义分析获得用户真正的检索意图,实现精准检索。【方法/过程】本文在对语义检索的原理和模 型进行描述的基础上,提出了基于本体概念树模型的词元扩展算法,通过对词元的语义相似性、语义相关性进行计 算,得出词元的语义关联度,关联度超过一定阈值的词元的集合即为扩展后的词元集。【结果/结论】该方法既考虑 了具有继承关系的词元间的语义相似性,也考虑了具有相同属性词元间的语义关联度,结论更具参考价值。  相似文献   

20.
【目的/意义】旨在将社会化问答社区中碎片化的答案关联起来,并为用户提供不同主题的高质量答案和更 好的知识服务。【方法/过程】首先,本研究利用Doc2vec算法计算答案之间的语义相似度,并构建答案语义网络。其 次,利用Louvain算法对答案语义网络进行社区划分,并用TextRank算法抽取各个主题下文档的关键词,使用词云 对每个主题进行可视化展示。最后,利用PageRank算法对聚类后的答案语义网络进行排序,从而实现答案文档的 主题聚合和排序。【结果/结论】本研究使用“知乎”上的问答数据进行了实证研究。结果表明,所提出的答案聚合和 排序方法不仅能够向用户直观地展示答案之间的关联强度和各个主题答案的主要内容,还能够为用户提供分主题 的答案排序结果,自动为用户筛选高质量的答案。【创新/局限】创新性地提出了答案语义网络,并基于答案语义网 络,提出了一种集聚合、主题可视化和排序于一体的答案知识组织方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号