首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
王静茹  陈震 《情报科学》2018,36(1):102-107
【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。 为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/ 过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数 据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事 件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数 据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。  相似文献   

2.
王正成  袁竹星 《情报科学》2018,36(3):112-116
【目的/意义】在微博中,意见领袖对于消息的传播以及舆情走向起着关键的作用。然而,现有的意见领袖 研究大多忽略了意见领袖在特定话题下的意见代表性。【方法/过程】提出了面向主题的微博意见领袖研究的方法, 该方法旨在利用LDA主题模型挖掘出特定话题中的各个主题,根据主题划分结果对参与话题讨论的用户进行分 类,并结合用户自身属性,借鉴PageRank算法思想挖掘出该主题演化中的意见领袖。【结果/结论】实验证明,本文方 法更能体现特定话题的舆情走向,其针对主题挖掘的意见领袖也更具代表性。  相似文献   

3.
【目的/意义】大数据时代文本主题挖掘在情报分析领域中的作用日趋重要,通过特征比较共词分析和 LDA模型分析两种主流文本主题挖掘方法,研究两者的具体特点,为相关人员合理地运用文本主题挖掘方法处理 数据提供一定的参考。【方法/过程】本文分两种情况对比研究:第一、两者挖掘不同时段同一种类文本数据的主题 分布信息和主题演化信息的能力;第二、两者挖掘同一时段不同种类文本数据的提取正确主题的能力。【结果/结 论】在不同时段LDA模型分析与共词分析相比挖掘主题分布信息的能力可不断提升,并且其可挖掘出更加细化的 主题演化信息;在同一时段LDA模型分析对语义关系模糊逻辑结构粗糙的文本提取正确主题的效果明显优于共词 分析。  相似文献   

4.
【目的/意义】随着社交网络的普及与快速发展,人们越来越多地依赖于网络聊天工具进行交流,针对QQ 群组聊天信息过载用户无法从聊天记录中快速获取所需信息的问题,本文开展了聊天热点主题提取和QQ群组用 户聊天行为分析的研究。【方法/过程】采集了一个技术类QQ群的聊天数据,利用Gibbs算法和LDA模型提取群组 聊天数据中的主题并对其进行分析。【结果/结论】发现群组的主题可以分为三类:技术类、生活类和综合类。其中, 技术类话题讨论的高峰集中在工作时间,没有继承性;大家普遍关心生活类话题,该话题有继承性。由于群组聊天 的即时性、交互性和网络领袖的影响,一个时间段内群中只有一个热点主题。该研究结果可为群组聊天行为和热 点分析提供参考。  相似文献   

5.
【目的/意义】为在线医疗问诊平台中的医生自动生成高质量标签,更好地服务于对医生资源的分类、检索和管理。【方法/过程】基于在线问诊文本信息,提出了结合时间周期特征与文本主题特征的医生标签自动生成算法。首先根据医生相关文本信息提取关键词生成候选标签,然后从患者问题文本和医生回答文本两个方面进行LDA主题模型训练,按时间周期挖掘出问题文本和回答文本的主题特征,对候选标签进行质量控制;最后经标签加权混合后得到最终的医生标签。【结果/结论】实验结果表明,该标签自动生成算法能够反映出医生标签生成的动态性,能够准确生成符合医生专业知识特征的高质量标签,具有较好的标签生成效果。  相似文献   

6.
张雷  谭慧雯  张璇  韩龙 《情报科学》2022,40(3):144-151
【目的/意义】构建高校师德舆情微博用户评论LDA模型,可以更精准识别舆情演化特征和分析关键主题传 播路径,帮助高校和相关部门更为有效地进行舆情监管和舆情引导。【方法/过程】本文以“天津大学一教授学术造 假”事件为例,基于 LDA模型构建高校师德舆情下微博用户主题生成模型,采用困惑度评价指标确定 LDA模型最 优主题数,采用信息熵确定每一主题在不同日期的主题强度,通过关键词共现知识图谱、词云展现舆情话题的演 变,最后基于主题相似度确定主题传播路径。【结果/结论】LDA模型和信息熵可以解析出网络用户群体关注的重要 主题热点,精准识别舆情演化特征,识别主题最优传播路径进行舆论引导,对爆发的舆情实现预测和管制优化。【创 新/局限】文章创新性地构建高校学术道德舆情的LDA主题模型,有效确定微博用户群体主题、识别舆情演化特征、 分析主题间传播路径,具有普适性;进一步扩大高校师德其他舆情分析及结合网络舆情情感分析为下一步的研究 内容。  相似文献   

7.
周国韬  龚栩  邓胜利 《情报科学》2022,40(4):118-126
【目的/意义】研究旨在揭示社会化问答平台用户的养生健康信息需求分布特征,并深入探究需求产生的动 机及演化趋势。【方法/过程】本文以社会化问答平台“知乎”中13万条养生问答数据作为研究对象,通过LDA模型提 取需求话题,在离散时间序列基础上结合马斯洛需求层次理论对话题的关注度与关注热点进行演化分析。【结果/ 结论】用户养生信息需求涵盖 20个话题;相比传统健康信息需求对疾病的聚焦,养生健康信息需求在内容上更多 样,需求层次更高。需求的关注度演化上,安全需求与尊重需求成为热点,新冠疫情加强了用户对养生健康信息需 求的关注。话题间的内在联系上,用户对尊重需求话题的关注度以“商品化”的形式转移至安全需求话题。【创新/ 局限】本文首次聚焦养生健康信息需求,通过话题与演化分析细粒度地挖掘用户养生健康信息需求的变化趋势。 此外,本文数据源来自同一平台,后续研究可分析多平台用户的养生健康信息需求并对动机进行深化。  相似文献   

8.
安璐  周亦文 《情报科学》2020,38(4):9-16
【目的/意义】构建用户特征指标体系,对恐怖事件情境下微博信息与评论用户进行画像并比较有助于掌握参与恐怖事件讨论用户的特点,加强反恐舆论引导。【方法/过程】以"#巴塞罗那恐怖袭击#"话题下的所有微博及评论数据为例,使用基于相关性的LDA主题模型提取微博主题,从用户特征和文本特征两个角度构建指标体系,并采用两步聚类刻画微博用户特征,分析发布微博用户和评论用户的异同。【结果/结论】以往活跃度、影响力较高的用户在该事件中不一定拥有较高的影响力;原始微博用户的平均等级略低于评论用户,但其在该事件中的影响力高于评论用户;原始微博用户类型多于评论微博用户类型。  相似文献   

9.
【目的/意义】通过分析近年来我国图书馆法律法规的内容特征及其发展脉络,探究其发展趋势,为我国图 书馆法律法规研究提供借鉴,为图书馆法律体系建设提供参考。【方法/过程】以中国知网作为数据源,选取 2008- 2018年《中国图书馆年鉴》中法律法规与政策性文件中法律法规的全文,作为研究样本,利用LDA模型进行主题内 容提取和挖掘。【结果/结论】通过主题研究发现我国图书馆专门法律法规较少,实施较晚,应加强专门法的研究,促 进综合性图书馆法出台,加快图书馆法律体系建设。【创新/局限】运用LDA主题建模方法对现行大量图书馆法律法 规文本进行主题数据分析,探究图书馆法律法规的内容特征和发展机理具有创新意义。由于算法中的分词方法对 个别专业词汇切分可能存在局部偏差,会对关键词提取准确性造成微小影响。  相似文献   

10.
孟秋晴  熊回香 《情报科学》2021,39(6):152-160
【目的/意义】为了向在线医疗社区中的用户自动推荐符合其自身实际需求的医生,本文基于在线问诊文本 信息,提出了基于相似用户与相似医生的混合医生推荐算法。【方法/过程】首先从用户咨询问题出发,找到具有相 似咨询问题的用户,将其所选择的医生作为基于相似用户的推荐集合;然后从医生回答从发,通过LDA主题模型训 练,从医生回答文本集中挖掘出隐含的疾病主题,按主题查找具有相似疾病诊治经验的医生作为推荐集合;最后通 过混合相似度计算融合基于相似用户和相似医生的推荐结果,得到最终推荐列表。【结果/结论】通过对在线医疗社 区“39健康网”进行实证研究,结果表明,利用本文提出的方法进行推荐,能够有效降低数据维度,挖掘文本间的潜 在语义关联,有效缩小语义鸿沟,提升推荐质量,具有较好的推荐效果。【创新/局限】本文仅选取了针对科室的小样 本数据进行实验,且部分参数使用经验值,未来可深入探讨该方法在大规模医疗数据集上的应用。  相似文献   

11.
李湘东  阮涛  潘练 《情报科学》2018,36(4):14-21
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。  相似文献   

12.
邢云菲  曹高辉  陶然 《情报科学》2021,39(9):101-109
【目的/意义】网络用户在线评论是用户对某产品或服务机构体验感知的反馈,对网络用户在线评论的文 本挖掘是情报分析的重要内容。【方法/过程】为了更有效从海量网络用户在线评论文本中挖掘用户感兴趣的信息, 本研究爬取TripAdvisor网站四大城市的酒店用户在线评论,基于主题图谱理论和文本聚类算法构建网络用户在线 评论的聚类模型,通过图谱可视化揭示不同地区酒店用户观点差异,并分析不同图谱的社会网络特征。【结果/结 论】研究发现酒店用户最关注的是服务,其次是酒店的环境和位置。本研究能够快速挖掘酒店用户关注内容,对帮 助酒店管理者了解用户住宿需求并以此提高用户满意度具有重要价值。【创新/局限】本文结合主题图谱和文本挖 掘技术构建酒店用户在线评论主题图谱,在大数据文本主题聚类上显示出优越性。但本文仅分析TripAdvisor网站 四个城市中部分酒店的用户在线评论,数据面覆盖不够广泛。  相似文献   

13.
【目的/意义】为微博用户生成质量较高的标签,帮助用户对微博特征进行描述。【方法/过程】首先,分析微 博的特征建立候选标签与候选词表。随后,用 LDA对用户的微博进行主题分析,将用户的微博与预选标签相匹配, 生成预选标签。最后,用 LDA对用户关注的人及用户的粉丝的微博进行主题分析,对预选标签进行控制生成最终 标签。【结果/结论】实验结果表明,本文以 LDA为基础提出的标签生成方法具有不错的效果,最终生成的标签能够 较为准确地描述用户的微博特征。  相似文献   

14.
【目的/意义】本文利用用户在健康信息问答过程中产生的真实数据,从网络结构和信息主题两个维度对网 络健康社区中的健康信息传播网络及主题特征进行研究,进而为社区的建设和维护提供建议。【方法/过程】首先, 利用社会网络分析法对不同时间阶段的健康信息传播网络进行指标测度和可视化呈现,探究其网络结构特征;然 后结合LDA和已有词表,对社区内健康信息进行主题识别和提取,分析健康信息主题的分布及其变化趋势。【结果/ 结论】本研究发现实验选取的网络健康社区内部的健康信息传播网络具有小世界效应,用户流动性大,关键节点变 更快;用户健康信息问答的内容集中在若干主题,且部分主题随时间呈现一定变化趋势。【创新/局限】网络健康信 息的生成和传播源于用户之间的信息交互。本文从网络结构和信息主题两个维度开展研究,更符合其内部机理, 研究更加深入和具象;网络健康社区种类众多,本文只选择其中一个社区进行研究,可能存在一定的局限性。  相似文献   

15.
吴剑云  胥明珠 《情报科学》2021,39(1):128-134
【目的/意义】用户画像深刻地描述了视频用户的个体和群体行为特征,为视频的个性化推荐服务提供参 考。【方法/过程】通过文本挖掘对爬取的视频、用户及其观影数据分析,构建单个用户画像,并通过K-Means和LDA 模型对用户聚类并提取主题,挖掘群体用户特征。基于用户画像和时间指数衰减的视频兴趣标签,并结合视频喜 爱度和协同过滤,进行视频推荐。【结果/结论】考虑时间指数衰减的个性化推荐,提高了系统对用户兴趣的感知。 结合视频喜爱度和协同过滤,推荐视频评分达0.87,有助于提高用户对网站的忠诚度和活跃度。【创新/局限】基于用 户生成内容的文本挖掘结果,进行单个和群体用户画像,并创新性采用时间指数衰减构建用户视频兴趣标签,以捕 获用户兴趣的变化。由于网络爬虫的限制,实验数据量有一定的局限性,且特征提取兴趣范围有限。  相似文献   

16.
陈晨  侯景瑞  吴任力  王平 《情报科学》2019,37(7):139-145
【目的/意义】社会化问答社区现已成为网络用户共享、传播及获取知识的重要平台,但其开放性和交互性 也给其问题推荐工作带来了巨大的挑战。本文提出的基于多源混合标签的方法能够有效提高社会化问答社区的 问题推荐质量,以促使问题得到及时有效地解决。【方法/过程】利用自动标签标注系统从问答文本中提取关键词, 将语义扩展后的关键词作为基本标签,并建立多源混合标签库;利用标签表示用户的兴趣偏好与权威度,并建立用 户特征模型;最终通过协同过滤的方式进行匹配推荐。【结果/结论】实验结果表明,本文提出的基于多源混合标签 的问题推荐方法在检全率、检准率以及F值等指标方面均不同程度地优于基于文本相似度的基准方法。  相似文献   

17.
【目的/意义】探究产学研机构知识消费者在学术社交网络问答服务中的行为和需求特征,以提升用户学术 交流效力,为平台优化提供支撑依据。【方法/过程】本文以ResearchGate问答服务中的知识消费者作为研究对象,运 用方差分析、层次聚类、社会网络分析等方法比较分析产学研机构的用户行为,并从时间维度揭示行为特征演化和 需求变化趋势。【结果/结论】提问特征上,产学研机构知识消费者提问标题长度和添加标签数量及变化趋势有一定 相似性。信息需求上,三类机构知识消费者关注内容较分散,高校和科研院所有更多共同话题,但各自个性化需求 占比却更高,而企业的个性化需求占比较低。在2010-2019年间,除共同高频话题呈现稳定或微弱下降的趋势外, 企业高频话题多为下降趋势,高校和科研院所呈上升趋势的高频话题居多。【创新/局限】从机构视角对比研究知识 消费者行为,促进用户问答效用的提升及学术社交网络问答服务的优化;本文局限性在于只选择顶尖产学研机构 和ResearchGate进行研究。  相似文献   

18.
杨奕  张毅  李梅  邓雯 《情报科学》2019,37(1):86-93
【目的/意义】通过数据挖掘、文本分析法整合公众分散的反馈意见,对比研究出台政策,对政府部门吸纳公 众意见,制定科学合理的公共政策具有重要意义。【方法/过程】基于大数据技术深度挖掘公众对共享单车政策征求 意见稿的反馈内容,采用LDA模型从公众反馈意见中发现并提取低维主题集合,汇总、组织、分析大规模文本信息, 以主题领域和隶属概率值两维度,对比公众意见与政策修订的差异。【结果/结论】从制度体系、政府治理、企业经营、 产品完善、用户规范五个分类主题及其概率值,评估政策制定中的公众参与度以及政府对公众反馈意见的采纳效 果,以期为政府出台政策的科学性提供理论依据和决策建议。  相似文献   

19.
胡吉明  钱玮  李雨薇  文鹏 《情报科学》2021,39(10):11-17
【目的/意义】本文以主题为核心,从外部属性和内容属性两个视角展开政策文本结构化解析,直观反映政 策核心内涵,挖掘政策文本语义,为政策内容解读提供新模式。【方法/过程】利用LDA2Vec主题模型实现基于上下 文的政策文本主题识别,同时借助位置和语法规律提取外部属性,以此构建政策文本结构化解析的描述框架。【结 果/结论】“互联网+”政策文本解读的实证分析发现,本文所提框架有助于直观展现政策要素,有效揭示政策文本主 题分布,以及进行大规模政策领域文本的批量分析和解读。【创新/局限】通过结构化解析框架展现政策文本的形式 化特征和主题性特征,帮助政策相关群体把握政策制定的特点和侧重点,目前深层次内容解读有待进一步研究。  相似文献   

20.
张祥青  宋雪雁  张伟民 《情报科学》2022,40(11):166-175
【目的 /意义】通过构建社区问答平台可用性评价指标体系并选取实证对象进行评价,为社区问答平台可 用性优化提供数据支持和参考。【方法/过程】通过文献梳理与用户调研,运用因子分析法确立社区问答平台评价指 标体系,综合应用MUSA、TOPSIS对社区问答平台可用性评价研究。【结果/结论】实际获得3个社区问答平台的可 用性用户测度结果,定位与分析了平台评价指标的最优方案、最劣方案,平台最优距离以及最劣距离,依据结果给 出了可用性优化策略。【创新/局限】本研究结合了MUSA和TOPSIS的优势,综合运用两种方法深化了对社区问答 平台可用性测度的研究,通过横向与纵向对比,使对社区问答平台可用性的测度更加细致与精准,但是在实证对象 的数量和调研样本数量方面还存在一定局限。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号