首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联 网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了 解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然 后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦 点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。 【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚 类效果,有效的获取各阶段的话题焦点。  相似文献   

2.
【目的/意义】网络舆情的热点话题对政府和网民有着很大的影响,及时发现热点话题有利于政府监控话题 的发展。【方法/过程】本文提出了基于时间序列的话题动态演化两层模型,并将新闻网页内容的相似度和页面链接 分析作为话题热度的计算依据,然后利用改进的Single-Pass算法进行增量聚类获得聚类中心,最后根据热度权重将 聚类中心进行排序,获得热点话题。【结果/结论】通过实验验证,该算法发现效果好,能够更好地获得热点话题。  相似文献   

3.
孟秋晴  熊回香 《情报科学》2021,39(6):152-160
【目的/意义】为了向在线医疗社区中的用户自动推荐符合其自身实际需求的医生,本文基于在线问诊文本 信息,提出了基于相似用户与相似医生的混合医生推荐算法。【方法/过程】首先从用户咨询问题出发,找到具有相 似咨询问题的用户,将其所选择的医生作为基于相似用户的推荐集合;然后从医生回答从发,通过LDA主题模型训 练,从医生回答文本集中挖掘出隐含的疾病主题,按主题查找具有相似疾病诊治经验的医生作为推荐集合;最后通 过混合相似度计算融合基于相似用户和相似医生的推荐结果,得到最终推荐列表。【结果/结论】通过对在线医疗社 区“39健康网”进行实证研究,结果表明,利用本文提出的方法进行推荐,能够有效降低数据维度,挖掘文本间的潜 在语义关联,有效缩小语义鸿沟,提升推荐质量,具有较好的推荐效果。【创新/局限】本文仅选取了针对科室的小样 本数据进行实验,且部分参数使用经验值,未来可深入探讨该方法在大规模医疗数据集上的应用。  相似文献   

4.
【目的/意义】文本相似度计算是自然语言处理中的一项基础性研究,通过总结和分析文本相似度计算的经 典方法和当前最新的研究成果,完善对文本相似度计算方法的系统化研究,以便于快速学习和掌握文本相似度计 算方法。【方法/内容】对过去20年的文本相似度计算领域的经典文献进行整理,分析不同计算方法的基本思想、优 缺点,总结每种计算方法的侧重点和不同方向上最新的研究进展。【结果/结论】从表面文本相似度计算方法和语义 相似度计算方法两方面进行阐述,形成较为全面的分类体系,其中语义相似度计算方法中的基于语料库的方法是 该领域最为主要的研究方向。  相似文献   

5.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

6.
李莉  林雨蓝  姚瑞波 《情报科学》2018,36(10):64-70
【目的/意义】挖掘出客服聊天记录中蕴含的主题,为客服自动问答系统的设计及优化提供指导方案。【方 法/过程】本文针对保险网站客服聊天记录这类交互式短文本,利用会话切分、分词提取以及词汇过滤等方法进行 文本预处理,通过名词短语提取、高频词汇提取以及外部数据集引入等方法进行特征选择,最终应用 LDA建模方法 获取交互式文本主题。【结果/结论】模型结果显示:用户主要关注保险详情、保险金额以及保险险种等主题。不同 主题之间的话题具有一定的独立性,主题和话题之间存在很强的相关性。LDA模型结果成功挖掘出用户关注的主 题,这为电子商务网站运营方进行自动问答系统的设计和优化提供了指导方案。  相似文献   

7.
王曦  陈铎 《情报科学》2022,40(7):55-60
【目的/意义】为把握招生考试过程中网络舆论的基本特点和发展规律,及时发现潜在舆情隐患,本研究对 考研复试期间国内主流网络社交平台的相关话题讨论文本进行了主题演化研究。【方法/过程】使用 Python采集数 据,BTM模型对数据中的词对建模来进行主题挖掘和聚类,对各主题强度和内容随时间的演化进行分析。【结果/结 论】主题强度和内容演化结果显示,公众的关注点与招生录取进程密切相关,并呈现一定的周期和规律性,能够做 为网络舆情预测的依据。【创新/局限】BTM模型克服了短文本语料中的数据稀疏问题,能够有效进行主题挖掘,但 同时也存在语义理解不足,需要人工辅助解读的问题,需要在后续研究中进一步改进。  相似文献   

8.
马思丹  刘东苏 《情报科学》2019,37(11):38-42
【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的 分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非 重叠部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行 分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模 型的分类效果有所提升,是一种有效的文本分类方法。  相似文献   

9.
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类 时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方 法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高 阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明, CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题 发现。  相似文献   

10.
【目的/意义】旨在将社会化问答社区中碎片化的答案关联起来,并为用户提供不同主题的高质量答案和更 好的知识服务。【方法/过程】首先,本研究利用Doc2vec算法计算答案之间的语义相似度,并构建答案语义网络。其 次,利用Louvain算法对答案语义网络进行社区划分,并用TextRank算法抽取各个主题下文档的关键词,使用词云 对每个主题进行可视化展示。最后,利用PageRank算法对聚类后的答案语义网络进行排序,从而实现答案文档的 主题聚合和排序。【结果/结论】本研究使用“知乎”上的问答数据进行了实证研究。结果表明,所提出的答案聚合和 排序方法不仅能够向用户直观地展示答案之间的关联强度和各个主题答案的主要内容,还能够为用户提供分主题 的答案排序结果,自动为用户筛选高质量的答案。【创新/局限】创新性地提出了答案语义网络,并基于答案语义网 络,提出了一种集聚合、主题可视化和排序于一体的答案知识组织方法。  相似文献   

11.
王静茹  陈震 《情报科学》2018,36(1):102-107
【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。 为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/ 过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数 据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事 件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数 据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。  相似文献   

12.
【目的/意义】随着我国科技水平的不断提升,越来越多的科研人员致力于研究如何客观有效地评估科技论 文的质量。【方法/过程】本文提出了基于文本挖掘和文献计量的科技论文评估方法,该方法首先利用论文的引用 频率计算得到训练论文的质量,其次分别使用LSI和LDA方法来计算新论文和训练论文之间的相似度,设计论文质 量评估算法,根据训练论文的质量和论文间的相似度加权计算得到新论文的质量评价值。【结果/结论】在涉及多主 题和单一主题的数据集上的实验结果表明,本文提出的方法能够适用于包含多个主题的论文集,其计算出来的论 文质量值真实有效。  相似文献   

13.
【目的/意义】随着网络社交媒体的发展,舆情文本中隐含的主题越来越能体现出人们的关注点所在及变化 情况,因此对其进行检测及演化分析具有重要意义。【方法/过程】为了解决OLDA模型存在的主题混合及权重定义 问题,本文提出了一种可变在线LDA模型(variable online LDA,VOLDA),通过构建主题相似度矩阵,明确主题变化 关系,在主题内容演化矩阵中剔除含有旧主题的时间片,从而构建变长的演化矩阵,并在此基础上设计动态权重计 算方法及先验参数优化方法。【结果/结论】基于论坛文本数据的实验结果表明,VOLDA模型能够有效减少新主题 出现后的主题混合问题,并且提高主题在演化过程中的表示能力。  相似文献   

14.
程亚男  王宇 《情报科学》2018,36(8):72-76
【目的/意义】目前问答社区答案数量多且篇幅长,对答案进行重新排序和组织可以方便用户高效获取答案 信息。【方法/过程】针对答案文本的特点,提出基于答案相似度对社区答案进行重新组织、排序的方法。该方法定 义答案文本语义云和情感云,利用标签传播算法计算出词典中不存在的词语语义和情感相似度,即云滴值,然后每 个答案形成多片语义云和一片情感云,通过计算答案云间相似度得到答案文本间的相似度。最后,结合答案“赞” 数对答案进行重新排序。【结果/结论】通过实验的人工评价,发现与基于“赞”数排序相比,基于语义情感相似度的 答案排序方法与人工排序相似度更高,更能满足社区用户需求。  相似文献   

15.
【目的/意义】研究从用户节点和网络全局两个视角出发,基于用户相似度与信任度对虚拟学术社区中学者 进行推荐,提高学者推荐的质量。【方法/过程】首先,利用 LDA 主题模型挖掘学者发表的博文主题,计算博文相似 度;通过学者共同好友比例计算好友相似度;然后将博文相似度和好友相似度融合计算用户相似度;最后,融合用 户相似度和信任度进行学者推荐。【结果/结论】提出虚拟学术社区中基于用户相似度与信任度的学者推荐方法,综 合利用用户节点和网络全局信息,为虚拟学术社区用户进行学者推荐。【创新/局限】从用户节点和网络全局两个角 度进行学者信息融合,有效提高了虚拟学术社区中学者推荐的质量。局限在于本文主要考虑的是学者在网络全局 中的信任度,用户节点间的交互信任关系还有待进一步研究。  相似文献   

16.
周鑫  熊回香  肖兵 《情报科学》2023,(3):145-154
【目的/意义】针对在线医疗信息结构松散,医疗平台医生推荐精度不足的现状,设计了一种基于标签和患者咨询文本的医生推荐算法,提升医生推荐效果。【方法/过程】利用Word2vec模型训练患者咨询文本得到特征向量,改进余弦相似度算法计算医生推荐集A;利用LDA模型训练医生标签得到医生在主题上投影的概率分布,改进KL距离算法计算医生推荐集B;基于社会网络分析理论设计相关算法重构医生网络链接,选择中心性指标得到最终医生推荐集C。【结果/结论】以“丁香医生”数据进行实证,面向UGC数据丰富了算法的可用程度,弥补了单一推荐方法的不足,提高了推荐的精度。本文所提方法有效提升了医生推荐精度。【创新/局限】通过融合标签和患者咨询文本,采用社会网络分析实现了医生混合推荐。虽然通过中心性指标进行重要医生挖掘,但挖掘效果有提升空间。  相似文献   

17.
王正成  袁竹星 《情报科学》2018,36(3):112-116
【目的/意义】在微博中,意见领袖对于消息的传播以及舆情走向起着关键的作用。然而,现有的意见领袖 研究大多忽略了意见领袖在特定话题下的意见代表性。【方法/过程】提出了面向主题的微博意见领袖研究的方法, 该方法旨在利用LDA主题模型挖掘出特定话题中的各个主题,根据主题划分结果对参与话题讨论的用户进行分 类,并结合用户自身属性,借鉴PageRank算法思想挖掘出该主题演化中的意见领袖。【结果/结论】实验证明,本文方 法更能体现特定话题的舆情走向,其针对主题挖掘的意见领袖也更具代表性。  相似文献   

18.
叶佳鑫  熊回香  孟璇 《情报科学》2023,41(1):166-173
【目的/意义】通过深度学习方法对图书评论进行细粒度挖掘,并基于挖掘结果优化图书间相似度计算结果。【方法/过程】首先从在线书评网站上采集图书评论,对评论进行词性分析构建属性词表,随后基于属性词表对评论进行类型标注,通过BERT-BiLSTM模型对标注数据进行学习以实现评论自动分类,最后通过BERT对分类后的评论进行向量表示,通过余弦相似度计算评论间的相似度以表征图书相似度。【结果/结论】本文构造的BERT-BiLSTM评论分类模型准确率、召回率和F1值分别达到0.922、0.921和0.921,可以较好地实现评论分类。通过模型将评论划分为文笔、人物、情节、概要、读者态度5种类型来计算图书间相似度可以得到较为契合的相似度结果。【创新/局限】相较于其他类型的评论,通过人物与情节类评论计算图书相似度的效果有待提高。以后可对这两类评论进行更为细粒度的分析。  相似文献   

19.
李慧  王丽婷 《情报科学》2018,36(4):45-50
【目的/意义】随着网民规模的扩大以及微博数据的增长,获取微博空间的热点话题是一项有价值的任务。 本文结合微博的特点提出专门针对中文微博的热点话题发现模型。【过程/方法】本文提出利用词项H指数筛选出 热点词项,然后利用BTM建模和VSM建模的结果相融合计算文本相似度,再利用k-means 聚类算法发现微博的热 点话题。【结果/结论】本文在提取特征阶段既考虑了微博词项的热度又考虑了其短文本性,通过实验验证本文提出 的方法有利于发现准确的热点话题。  相似文献   

20.
邢云菲  曹高辉  陶然 《情报科学》2021,39(9):101-109
【目的/意义】网络用户在线评论是用户对某产品或服务机构体验感知的反馈,对网络用户在线评论的文 本挖掘是情报分析的重要内容。【方法/过程】为了更有效从海量网络用户在线评论文本中挖掘用户感兴趣的信息, 本研究爬取TripAdvisor网站四大城市的酒店用户在线评论,基于主题图谱理论和文本聚类算法构建网络用户在线 评论的聚类模型,通过图谱可视化揭示不同地区酒店用户观点差异,并分析不同图谱的社会网络特征。【结果/结 论】研究发现酒店用户最关注的是服务,其次是酒店的环境和位置。本研究能够快速挖掘酒店用户关注内容,对帮 助酒店管理者了解用户住宿需求并以此提高用户满意度具有重要价值。【创新/局限】本文结合主题图谱和文本挖 掘技术构建酒店用户在线评论主题图谱,在大数据文本主题聚类上显示出优越性。但本文仅分析TripAdvisor网站 四个城市中部分酒店的用户在线评论,数据面覆盖不够广泛。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号