期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王静茹陈震《情报科学》2018,36(1):102-107

【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/ 过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。相似文献

2.

面向主题的微博意见领袖挖掘研究

下载免费PDF全文

王正成袁竹星《情报科学》2018,36(3):112-116

【目的/意义】在微博中,意见领袖对于消息的传播以及舆情走向起着关键的作用。然而,现有的意见领袖研究大多忽略了意见领袖在特定话题下的意见代表性。【方法/过程】提出了面向主题的微博意见领袖研究的方法, 该方法旨在利用LDA主题模型挖掘出特定话题中的各个主题,根据主题划分结果对参与话题讨论的用户进行分类,并结合用户自身属性,借鉴PageRank算法思想挖掘出该主题演化中的意见领袖。【结果/结论】实验证明,本文方法更能体现特定话题的舆情走向,其针对主题挖掘的意见领袖也更具代表性。相似文献

3.

共词分析与LDA 模型分析在文本主题挖掘中的比较研究

下载免费PDF全文

曲靖野陈震胡轶楠《情报科学》2018,36(2):18-23

【目的/意义】大数据时代文本主题挖掘在情报分析领域中的作用日趋重要,通过特征比较共词分析和 LDA模型分析两种主流文本主题挖掘方法,研究两者的具体特点,为相关人员合理地运用文本主题挖掘方法处理数据提供一定的参考。【方法/过程】本文分两种情况对比研究：第一、两者挖掘不同时段同一种类文本数据的主题分布信息和主题演化信息的能力;第二、两者挖掘同一时段不同种类文本数据的提取正确主题的能力。【结果/结论】在不同时段LDA模型分析与共词分析相比挖掘主题分布信息的能力可不断提升,并且其可挖掘出更加细化的主题演化信息;在同一时段LDA模型分析对语义关系模糊逻辑结构粗糙的文本提取正确主题的效果明显优于共词分析。相似文献

4.

基于LDA的群组聊天行为研究

下载免费PDF全文

底晓强邱金李锦青毕琳杨华民赵建平张凤荣《情报科学》2017,35(12):45-49

【目的/意义】随着社交网络的普及与快速发展,人们越来越多地依赖于网络聊天工具进行交流,针对QQ 群组聊天信息过载用户无法从聊天记录中快速获取所需信息的问题,本文开展了聊天热点主题提取和QQ群组用户聊天行为分析的研究。【方法/过程】采集了一个技术类QQ群的聊天数据,利用Gibbs算法和LDA模型提取群组聊天数据中的主题并对其进行分析。【结果/结论】发现群组的主题可以分为三类：技术类、生活类和综合类。其中, 技术类话题讨论的高峰集中在工作时间,没有继承性;大家普遍关心生活类话题,该话题有继承性。由于群组聊天的即时性、交互性和网络领袖的影响,一个时间段内群中只有一个热点主题。该研究结果可为群组聊天行为和热点分析提供参考。相似文献

5.

基于在线问诊文本信息的医生标签自动生成研究

下载免费PDF全文

孟秋晴熊回香童兆莉叶佳鑫《情报科学》2020,38(5):58-64

【目的/意义】为在线医疗问诊平台中的医生自动生成高质量标签,更好地服务于对医生资源的分类、检索和管理。【方法/过程】基于在线问诊文本信息,提出了结合时间周期特征与文本主题特征的医生标签自动生成算法。首先根据医生相关文本信息提取关键词生成候选标签,然后从患者问题文本和医生回答文本两个方面进行LDA主题模型训练,按时间周期挖掘出问题文本和回答文本的主题特征,对候选标签进行质量控制;最后经标签加权混合后得到最终的医生标签。【结果/结论】实验结果表明,该标签自动生成算法能够反映出医生标签生成的动态性,能够准确生成符合医生专业知识特征的高质量标签,具有较好的标签生成效果。相似文献

6.

基于LDA模型的高校师德舆情演化及路径传导研究

下载免费PDF全文

张雷谭慧雯张璇韩龙《情报科学》2022,40(3):144-151

【目的/意义】构建高校师德舆情微博用户评论LDA模型,可以更精准识别舆情演化特征和分析关键主题传播路径,帮助高校和相关部门更为有效地进行舆情监管和舆情引导。【方法/过程】本文以“天津大学一教授学术造假”事件为例,基于 LDA模型构建高校师德舆情下微博用户主题生成模型,采用困惑度评价指标确定 LDA模型最优主题数,采用信息熵确定每一主题在不同日期的主题强度,通过关键词共现知识图谱、词云展现舆情话题的演变,最后基于主题相似度确定主题传播路径。【结果/结论】LDA模型和信息熵可以解析出网络用户群体关注的重要主题热点,精准识别舆情演化特征,识别主题最优传播路径进行舆论引导,对爆发的舆情实现预测和管制优化。【创新/局限】文章创新性地构建高校学术道德舆情的LDA主题模型,有效确定微博用户群体主题、识别舆情演化特征、分析主题间传播路径,具有普适性;进一步扩大高校师德其他舆情分析及结合网络舆情情感分析为下一步的研究内容。相似文献

7.

基于主题分析的用户养生健康信息需求演化趋势研究

下载免费PDF全文

周国韬龚栩邓胜利《情报科学》2022,40(4):118-126

【目的/意义】研究旨在揭示社会化问答平台用户的养生健康信息需求分布特征,并深入探究需求产生的动机及演化趋势。【方法/过程】本文以社会化问答平台“知乎”中13万条养生问答数据作为研究对象,通过LDA模型提取需求话题,在离散时间序列基础上结合马斯洛需求层次理论对话题的关注度与关注热点进行演化分析。【结果/ 结论】用户养生信息需求涵盖 20个话题;相比传统健康信息需求对疾病的聚焦,养生健康信息需求在内容上更多样,需求层次更高。需求的关注度演化上,安全需求与尊重需求成为热点,新冠疫情加强了用户对养生健康信息需求的关注。话题间的内在联系上,用户对尊重需求话题的关注度以“商品化”的形式转移至安全需求话题。【创新/ 局限】本文首次聚焦养生健康信息需求,通过话题与演化分析细粒度地挖掘用户养生健康信息需求的变化趋势。此外,本文数据源来自同一平台,后续研究可分析多平台用户的养生健康信息需求并对动机进行深化。相似文献

8.

恐怖事件情境下微博信息与评论用户的画像及比较

下载免费PDF全文

安璐周亦文《情报科学》2020,38(4):9-16

【目的/意义】构建用户特征指标体系,对恐怖事件情境下微博信息与评论用户进行画像并比较有助于掌握参与恐怖事件讨论用户的特点,加强反恐舆论引导。【方法/过程】以"#巴塞罗那恐怖袭击#"话题下的所有微博及评论数据为例,使用基于相关性的LDA主题模型提取微博主题,从用户特征和文本特征两个角度构建指标体系,并采用两步聚类刻画微博用户特征,分析发布微博用户和评论用户的异同。【结果/结论】以往活跃度、影响力较高的用户在该事件中不一定拥有较高的影响力;原始微博用户的平均等级略低于评论用户,但其在该事件中的影响力高于评论用户;原始微博用户类型多于评论微博用户类型。相似文献

9.

我国图书馆法律法规主题发现及演化分析

下载免费PDF全文

王友翠张雪梅苏文成《情报科学》2021,39(12):25-31

【目的/意义】通过分析近年来我国图书馆法律法规的内容特征及其发展脉络,探究其发展趋势,为我国图书馆法律法规研究提供借鉴,为图书馆法律体系建设提供参考。【方法/过程】以中国知网作为数据源,选取 2008- 2018年《中国图书馆年鉴》中法律法规与政策性文件中法律法规的全文,作为研究样本,利用LDA模型进行主题内容提取和挖掘。【结果/结论】通过主题研究发现我国图书馆专门法律法规较少,实施较晚,应加强专门法的研究,促进综合性图书馆法出台,加快图书馆法律体系建设。【创新/局限】运用LDA主题建模方法对现行大量图书馆法律法规文本进行主题数据分析,探究图书馆法律法规的内容特征和发展机理具有创新意义。由于算法中的分词方法对个别专业词汇切分可能存在局部偏差,会对关键词提取准确性造成微小影响。相似文献

10.

基于在线问诊文本信息的医生推荐研究

下载免费PDF全文

孟秋晴熊回香《情报科学》2021,39(6):152-160

【目的/意义】为了向在线医疗社区中的用户自动推荐符合其自身实际需求的医生,本文基于在线问诊文本信息,提出了基于相似用户与相似医生的混合医生推荐算法。【方法/过程】首先从用户咨询问题出发,找到具有相似咨询问题的用户,将其所选择的医生作为基于相似用户的推荐集合;然后从医生回答从发,通过LDA主题模型训练,从医生回答文本集中挖掘出隐含的疾病主题,按主题查找具有相似疾病诊治经验的医生作为推荐集合;最后通过混合相似度计算融合基于相似用户和相似医生的推荐结果,得到最终推荐列表。【结果/结论】通过对在线医疗社区“39健康网”进行实证研究,结果表明,利用本文提出的方法进行推荐,能够有效降低数据维度,挖掘文本间的潜在语义关联,有效缩小语义鸿沟,提升推荐质量,具有较好的推荐效果。【创新/局限】本文仅选取了针对科室的小样本数据进行实验,且部分参数使用经验值,未来可深入探讨该方法在大规模医疗数据集上的应用。相似文献

11.

融合去噪技术和动态主题数的新闻话题分析框架研究

下载免费PDF全文

李湘东阮涛潘练《情报科学》2018,36(4):14-21

【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。相似文献

12.

网络用户在线评论的主题图谱构建及可视化研究——以酒店用户评论为例

下载免费PDF全文

邢云菲曹高辉陶然《情报科学》2021,39(9):101-109

【目的/意义】网络用户在线评论是用户对某产品或服务机构体验感知的反馈,对网络用户在线评论的文本挖掘是情报分析的重要内容。【方法/过程】为了更有效从海量网络用户在线评论文本中挖掘用户感兴趣的信息, 本研究爬取TripAdvisor网站四大城市的酒店用户在线评论,基于主题图谱理论和文本聚类算法构建网络用户在线评论的聚类模型,通过图谱可视化揭示不同地区酒店用户观点差异,并分析不同图谱的社会网络特征。【结果/结论】研究发现酒店用户最关注的是服务,其次是酒店的环境和位置。本研究能够快速挖掘酒店用户关注内容,对帮助酒店管理者了解用户住宿需求并以此提高用户满意度具有重要价值。【创新/局限】本文结合主题图谱和文本挖掘技术构建酒店用户在线评论主题图谱,在大数据文本主题聚类上显示出优越性。但本文仅分析TripAdvisor网站四个城市中部分酒店的用户在线评论,数据面覆盖不够广泛。相似文献

13.

基于LDA主题模型的微博标签生成研究

下载免费PDF全文

熊回香叶佳鑫《情报科学》2018,36(10):7-12

【目的/意义】为微博用户生成质量较高的标签,帮助用户对微博特征进行描述。【方法/过程】首先,分析微博的特征建立候选标签与候选词表。随后,用 LDA对用户的微博进行主题分析,将用户的微博与预选标签相匹配, 生成预选标签。最后,用 LDA对用户关注的人及用户的粉丝的微博进行主题分析,对预选标签进行控制生成最终标签。【结果/结论】实验结果表明,本文以 LDA为基础提出的标签生成方法具有不错的效果,最终生成的标签能够较为准确地描述用户的微博特征。相似文献

14.

网络健康社区中健康信息传播网络及主题特征研究

下载免费PDF全文

范昊张玉晨吴川徽《情报科学》2021,39(1):4-12

【目的/意义】本文利用用户在健康信息问答过程中产生的真实数据,从网络结构和信息主题两个维度对网络健康社区中的健康信息传播网络及主题特征进行研究,进而为社区的建设和维护提供建议。【方法/过程】首先, 利用社会网络分析法对不同时间阶段的健康信息传播网络进行指标测度和可视化呈现,探究其网络结构特征;然后结合LDA和已有词表,对社区内健康信息进行主题识别和提取,分析健康信息主题的分布及其变化趋势。【结果/ 结论】本研究发现实验选取的网络健康社区内部的健康信息传播网络具有小世界效应,用户流动性大,关键节点变更快;用户健康信息问答的内容集中在若干主题,且部分主题随时间呈现一定变化趋势。【创新/局限】网络健康信息的生成和传播源于用户之间的信息交互。本文从网络结构和信息主题两个维度开展研究,更符合其内部机理, 研究更加深入和具象;网络健康社区种类众多,本文只选择其中一个社区进行研究,可能存在一定的局限性。相似文献

15.

基于用户画像和视频兴趣标签的个性化推荐

下载免费PDF全文

吴剑云胥明珠《情报科学》2021,39(1):128-134

【目的/意义】用户画像深刻地描述了视频用户的个体和群体行为特征,为视频的个性化推荐服务提供参考。【方法/过程】通过文本挖掘对爬取的视频、用户及其观影数据分析,构建单个用户画像,并通过K-Means和LDA 模型对用户聚类并提取主题,挖掘群体用户特征。基于用户画像和时间指数衰减的视频兴趣标签,并结合视频喜爱度和协同过滤,进行视频推荐。【结果/结论】考虑时间指数衰减的个性化推荐,提高了系统对用户兴趣的感知。结合视频喜爱度和协同过滤,推荐视频评分达0.87,有助于提高用户对网站的忠诚度和活跃度。【创新/局限】基于用户生成内容的文本挖掘结果,进行单个和群体用户画像,并创新性采用时间指数衰减构建用户视频兴趣标签,以捕获用户兴趣的变化。由于网络爬虫的限制,实验数据量有一定的局限性,且特征提取兴趣范围有限。相似文献

16.

基于多源混合标签的社会化问答社区问题推荐方法研究

下载免费PDF全文

陈晨侯景瑞吴任力王平《情报科学》2019,37(7):139-145

【目的/意义】社会化问答社区现已成为网络用户共享、传播及获取知识的重要平台，但其开放性和交互性也给其问题推荐工作带来了巨大的挑战。本文提出的基于多源混合标签的方法能够有效提高社会化问答社区的问题推荐质量，以促使问题得到及时有效地解决。【方法/过程】利用自动标签标注系统从问答文本中提取关键词，将语义扩展后的关键词作为基本标签，并建立多源混合标签库；利用标签表示用户的兴趣偏好与权威度，并建立用户特征模型；最终通过协同过滤的方式进行匹配推荐。【结果/结论】实验结果表明，本文提出的基于多源混合标签的问题推荐方法在检全率、检准率以及F值等指标方面均不同程度地优于基于文本相似度的基准方法。相似文献

17.

产学研机构中知识消费者学术问答行为特征与需求研究

下载免费PDF全文

严炜炜邓婉莹王子豪《情报科学》2022,40(5):43-50

【目的/意义】探究产学研机构知识消费者在学术社交网络问答服务中的行为和需求特征,以提升用户学术交流效力,为平台优化提供支撑依据。【方法/过程】本文以ResearchGate问答服务中的知识消费者作为研究对象,运用方差分析、层次聚类、社会网络分析等方法比较分析产学研机构的用户行为,并从时间维度揭示行为特征演化和需求变化趋势。【结果/结论】提问特征上,产学研机构知识消费者提问标题长度和添加标签数量及变化趋势有一定相似性。信息需求上,三类机构知识消费者关注内容较分散,高校和科研院所有更多共同话题,但各自个性化需求占比却更高,而企业的个性化需求占比较低。在2010-2019年间,除共同高频话题呈现稳定或微弱下降的趋势外, 企业高频话题多为下降趋势,高校和科研院所呈上升趋势的高频话题居多。【创新/局限】从机构视角对比研究知识消费者行为,促进用户问答效用的提升及学术社交网络问答服务的优化;本文局限性在于只选择顶尖产学研机构和ResearchGate进行研究。相似文献

18.

基于LDA模型的公众反馈意见采纳研究 ——共享单车政策修订与数据挖掘的对比分析

下载免费PDF全文

杨奕张毅李梅邓雯《情报科学》2019,37(1):86-93

【目的/意义】通过数据挖掘、文本分析法整合公众分散的反馈意见，对比研究出台政策，对政府部门吸纳公众意见，制定科学合理的公共政策具有重要意义。【方法/过程】基于大数据技术深度挖掘公众对共享单车政策征求意见稿的反馈内容，采用LDA模型从公众反馈意见中发现并提取低维主题集合，汇总、组织、分析大规模文本信息，以主题领域和隶属概率值两维度，对比公众意见与政策修订的差异。【结果/结论】从制度体系、政府治理、企业经营、产品完善、用户规范五个分类主题及其概率值，评估政策制定中的公众参与度以及政府对公众反馈意见的采纳效果，以期为政府出台政策的科学性提供理论依据和决策建议。相似文献

19.

基于LDA2Vec的政策文本主题挖掘与结构化解析框架研究

下载免费PDF全文

胡吉明钱玮李雨薇文鹏《情报科学》2021,39(10):11-17

【目的/意义】本文以主题为核心,从外部属性和内容属性两个视角展开政策文本结构化解析,直观反映政策核心内涵,挖掘政策文本语义,为政策内容解读提供新模式。【方法/过程】利用LDA2Vec主题模型实现基于上下文的政策文本主题识别,同时借助位置和语法规律提取外部属性,以此构建政策文本结构化解析的描述框架。【结果/结论】“互联网+”政策文本解读的实证分析发现,本文所提框架有助于直观展现政策要素,有效揭示政策文本主题分布,以及进行大规模政策领域文本的批量分析和解读。【创新/局限】通过结构化解析框架展现政策文本的形式化特征和主题性特征,帮助政策相关群体把握政策制定的特点和侧重点,目前深层次内容解读有待进一步研究。相似文献

20.

基于MUSA、TOPSIS综合评价方法的社区问答平台可用性测度研究

下载免费PDF全文

张祥青宋雪雁张伟民《情报科学》2022,40(11):166-175

【目的 /意义】通过构建社区问答平台可用性评价指标体系并选取实证对象进行评价,为社区问答平台可用性优化提供数据支持和参考。【方法/过程】通过文献梳理与用户调研,运用因子分析法确立社区问答平台评价指标体系,综合应用MUSA、TOPSIS对社区问答平台可用性评价研究。【结果/结论】实际获得3个社区问答平台的可用性用户测度结果,定位与分析了平台评价指标的最优方案、最劣方案,平台最优距离以及最劣距离,依据结果给出了可用性优化策略。【创新/局限】本研究结合了MUSA和TOPSIS的优势,综合运用两种方法深化了对社区问答平台可用性测度的研究,通过横向与纵向对比,使对社区问答平台可用性的测度更加细致与精准,但是在实证对象的数量和调研样本数量方面还存在一定局限。相似文献