首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 26 毫秒
1.
张雷  谭慧雯  张璇  韩龙 《情报科学》2022,40(3):144-151
【目的/意义】构建高校师德舆情微博用户评论LDA模型,可以更精准识别舆情演化特征和分析关键主题传 播路径,帮助高校和相关部门更为有效地进行舆情监管和舆情引导。【方法/过程】本文以“天津大学一教授学术造 假”事件为例,基于 LDA模型构建高校师德舆情下微博用户主题生成模型,采用困惑度评价指标确定 LDA模型最 优主题数,采用信息熵确定每一主题在不同日期的主题强度,通过关键词共现知识图谱、词云展现舆情话题的演 变,最后基于主题相似度确定主题传播路径。【结果/结论】LDA模型和信息熵可以解析出网络用户群体关注的重要 主题热点,精准识别舆情演化特征,识别主题最优传播路径进行舆论引导,对爆发的舆情实现预测和管制优化。【创 新/局限】文章创新性地构建高校学术道德舆情的LDA主题模型,有效确定微博用户群体主题、识别舆情演化特征、 分析主题间传播路径,具有普适性;进一步扩大高校师德其他舆情分析及结合网络舆情情感分析为下一步的研究 内容。  相似文献   

2.
王静茹  陈震 《情报科学》2018,36(1):102-107
【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。 为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/ 过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数 据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事 件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数 据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。  相似文献   

3.
林丽丽  马秀峰 《情报科学》2019,37(12):87-92
【目的/意义】为了解近年来图书情报研究的热门主题及其演化趋势,利用LDA模型进行文本挖掘。【方法/ 过程】选取CNKI作为检索数据库,以2006年至2017年图书情报学领域10本核心期刊中的论文摘要作为研究数 据,借助开源工具JGibbLDA构建LDA模型,运用困惑度来确定模型主题数目,根据主题-词项分布文件进行主题 标识,根据文档-主题分布文件计算主题强度。【结果/结论】2006年至2017年图书情报学领域有20个研究主题,其 中比较热门的主题有7个; 8个主题的强度呈上升趋势, 9个主题的强度呈下降趋势, 3个主题的强度变化幅度较小。  相似文献   

4.
【目的/意义】提出融合深层演化特征的情感分析方法,以提升公共安全事件微博情感分析精度。【方法/过 程】以红黄蓝幼儿园涉嫌虐童事件为例,使用LDA与爬虫软件提取演化特征中的主题特征、时间特征,结合传统浅 层文本词性特征与情感特征,应用于XGBoost以生成微博情感分析集成模型。【结果/结论】演化特征的融入使得 情感识别准确度Auc值提高4%,且XGBoost分类精度均优于SVM、随机森林。本文提出的情感识别模型能够在公 共安全事件微博情感分析方面取得较好效果  相似文献   

5.
金占勇  田亚鹏  白莽 《情报科学》2019,37(5):142-147
【目的/意义】为推动深度学习在网络舆情管理中的应用,提高突发灾害事件网络舆情情感识别效率。【方 法/过程】基于OCC模型建立了突发自然灾害网络舆情情感规则,并由word2vec构建文本向量作为长短期记忆网 络(Long-short term memory,LSTM)的初始输入,对其训练得到突发灾害事件网络舆情多情感识别模型。【结果/结 论】通过对比试验发现,OCC情感规则能够提升情感识别模型的正确率,基于LSTM和word2vec的突发灾害事件 网络舆情情感识别模型在情感识别效果上优于TF-IDF文本向量化方法以及基于卷积神经网络(Convolutional neural network,CNN)和传统的机器学习方式(Support vector machine,SVM)的分类算法结果。  相似文献   

6.
江秋菊 《情报科学》2019,37(6):96-100
【目的/意义】本文综合考虑文献的主题、被引频次和发文时间,从三维视角出发,提出一种文献影响力指数 (Influence Index of Document,IIOD)计算方法,在主题分类的基础上对文献的影响力进行评价。【方法/过程】以 中国引文数据库中2013-2017年情报学领域9本期刊的10523篇文献为样本,利用LDA模型进行主题提取,并将 LDA与K-means算法结合实现文本分类,进而计算特定主题下文献的影响力指数,根据文献影响力指数对文献进 行排名。【结果/结论】文献影响力指数综合考虑了文献的主题特征、被引频次和时效性,其排名结果更加全面合理, 为评价文献的影响力提供了一种新的视角。  相似文献   

7.
【目的/意义】随着网络社交媒体的发展,舆情文本中隐含的主题越来越能体现出人们的关注点所在及变化 情况,因此对其进行检测及演化分析具有重要意义。【方法/过程】为了解决OLDA模型存在的主题混合及权重定义 问题,本文提出了一种可变在线LDA模型(variable online LDA,VOLDA),通过构建主题相似度矩阵,明确主题变化 关系,在主题内容演化矩阵中剔除含有旧主题的时间片,从而构建变长的演化矩阵,并在此基础上设计动态权重计 算方法及先验参数优化方法。【结果/结论】基于论坛文本数据的实验结果表明,VOLDA模型能够有效减少新主题 出现后的主题混合问题,并且提高主题在演化过程中的表示能力。  相似文献   

8.
【目的/意义】颠覆性技术具有隐蔽性和突变性,而技术主题在演化过程中会释放颠覆性趋势产生的早期信号,本文提出一种基于专利主题演化的颠覆性技术识别方法。【方法/过程】首先,基于S曲线法判断技术生命周期;其次,综合运用文本挖掘和社会网络分析方法识别技术主题的演化事件;最后,定义新主题出现、原主题趋热和多主题融合三类突变情况,用于识别具有颠覆性潜力的技术主题。【结果/结论】通过类脑智能领域专利实证,发现六个新出现主题、四个趋热型主题和六个融合型主题,通过专家判读,证明了所提方法的有效性,同时筛选出五项主题作为最终预测结果。【创新/局限】本文基于动态社区发现算法对技术主题的演化特征进行分析,进而基于主题突变性筛选颠覆性技术,但数据来源较为单一,将在未来研究中加以扩充。  相似文献   

9.
范昊  何灏 《情报科学》2022,40(6):90-97
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新 闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类 别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的 融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确 率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】 本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多 向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。  相似文献   

10.
【目的/意义】大数据时代文本主题挖掘在情报分析领域中的作用日趋重要,通过特征比较共词分析和 LDA模型分析两种主流文本主题挖掘方法,研究两者的具体特点,为相关人员合理地运用文本主题挖掘方法处理 数据提供一定的参考。【方法/过程】本文分两种情况对比研究:第一、两者挖掘不同时段同一种类文本数据的主题 分布信息和主题演化信息的能力;第二、两者挖掘同一时段不同种类文本数据的提取正确主题的能力。【结果/结 论】在不同时段LDA模型分析与共词分析相比挖掘主题分布信息的能力可不断提升,并且其可挖掘出更加细化的 主题演化信息;在同一时段LDA模型分析对语义关系模糊逻辑结构粗糙的文本提取正确主题的效果明显优于共词 分析。  相似文献   

11.
孙靖超  刘为军 《情报科学》2021,39(7):147-152
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息 进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对 文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采 样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的 方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性 微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任 务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种 新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。  相似文献   

12.
【目的/意义】以近两年(2018-2019)国内有代表性的四件负面公共安全突发事件为例,对其微博评论进行 聚类,并找出影响微博用户消极情感倾向的因素,为政府进行舆情应对处理提供建议。【方法/过程】结合社会网络 分析法与LDA主题模型对评论文本进行关键要素提取,得出评论归因维度,进而通过情感分析软件对各维度进行 情感倾向度分析。【结果/结论】研究结果表明:微博用户主要从事件主体、事件分析、事件处置、社会关系、新闻媒 体、同理心、个人经验七个方面对公共安全突发事件进行评论,其中,事件分析、事件处置、事件主体、社会关系是微 博用户消极情感倾向的主要影响因素,据此本文提出了相应的舆情疏导建议。【创新/局限】本文基于归因理论,创 新性的提出了影响微博用户情感倾向度的归因维度体系,但舆情事件集中数量有限且未进行更细粒度的情感分类 分析。  相似文献   

13.
【目的/意义】为在线医疗问诊平台中的医生自动生成高质量标签,更好地服务于对医生资源的分类、检索和管理。【方法/过程】基于在线问诊文本信息,提出了结合时间周期特征与文本主题特征的医生标签自动生成算法。首先根据医生相关文本信息提取关键词生成候选标签,然后从患者问题文本和医生回答文本两个方面进行LDA主题模型训练,按时间周期挖掘出问题文本和回答文本的主题特征,对候选标签进行质量控制;最后经标签加权混合后得到最终的医生标签。【结果/结论】实验结果表明,该标签自动生成算法能够反映出医生标签生成的动态性,能够准确生成符合医生专业知识特征的高质量标签,具有较好的标签生成效果。  相似文献   

14.
【目的/意义】基于Rao-Stirling 指数和LDA模型进行领域学科交叉主题识别,并以纳米科技为例验证将 Rao-Stirling 指数和LDA模型用于领域学科交叉主题识别的有效性和适用性。【方法/过程】基于Rao-Stirling 指数 测度领域文献学科交叉程度,设定阈值发现高度学科交叉文献。基于LDA模型对筛选出的学科交叉文献进行主题 识别,发现学科交叉点和学科交叉研究主题。【结果/结论】基于Rao-Stirling 指数从引文的角度进行领域文献学科 交叉测度可以有效地发现与某领域相关的学科交叉文献,且有利于大数据集的学科交叉文献发现研究的实现。基 于LDA模型进行学科交叉主题识别可以有效地发现学科交叉主题。两方法的组合应用为发现某领域学科交叉主 题研究提供一种新视角。  相似文献   

15.
徐红  张斯婷  李凌方 《情报科学》2022,40(10):67-73
【目的/意义】文化振兴是乡村振兴战略的主要任务之一,以农家书屋为代表的农村阅读场所在农村阅读推 广过程中发挥了重要作用。识别农村阅读推广措施的主题与热点,有助于在新形势下更有效地面向农村地区开展 阅读推广。【方法/过程】以学习强国平台收录的关于农村阅读推广的新闻报道文本作为语料,运用LDA主题模型和 共词分析法识别了农村阅读推广举措的主题。【结果/结论】LDA模型识别了农村阅读推广举措7大主题,与共词分 析法识别的农家书屋、党史学习、农民学习、文化普及、图书馆服务等5个主题基本保持一致。研究表明,近年农家 书屋和全民阅读相关主题的热度最高,农村地区数字化阅读趋势日盛,而图书馆在农村阅读推广中的作用有限,应 重视农家书室和图书馆等主体在乡村文化振兴中的作用。【创新/局限】本研究以学习强国平台新闻报道文本作为 分析数据进行了农村阅读推广措施的主题识别与分析,直观地揭示了农村阅读推广的现状与趋势。受平台限制, 所获取数据可能存在遗漏。  相似文献   

16.
李湘东  阮涛  潘练 《情报科学》2018,36(4):14-21
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。  相似文献   

17.
阿柔娜 《情报科学》2023,(5):153-160
【目的/意义】分析数据隐私风险的时序主题关联,理清热点主题的演化路径,探索有温度的数据隐私风险治理。【方法/过程】基于WOS核心合集和Scopus数据库收录的数据隐私风险领域相关文献,通过LDA主题模型将文本按照时间片切分,并识别各时间片的研究主题;再通过余弦相似度计算分析相邻时间片主题的时序关联,梳理主题演化路径并探索研究前沿。【结果/结论】数据隐私风险研究的关注点逐渐从对识别、评估和缓解数据隐私风险技术本身的关注,转向对平台、算法和场景整体性情境的关注,这需要通过数字伦理、法律和社会等方面共同助力形成负责任的技术,以期构建数字信任环境。【创新/局限】本研究对跨学科和跨领域的数据隐私风险研究的演化路径进行梳理,探索数据隐私风险治理的有效路径。未来可进一步细化不同时期的主题,并深入分析不同时间片的新兴技术对数据隐私风险的影响。  相似文献   

18.
王佳敏  吴乐艳  李鹏程  熊资  陆伟  杜佳 《情报科学》2021,39(11):173-179
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别 模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完 善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基 础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用 warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数 据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于 98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的 考虑和融合。  相似文献   

19.
【目的/意义】研究分析社交媒体平台中围观者对不同类型隐私泄漏事件的情感,以确定围观者对不同类型隐私泄露的态度,促进社交媒体平台在用户隐私安全的情况下为用户提供更好的服务。【方法/过程】基于隐私泄露事件的四种类型,构建百度情感倾向分析与LDA主题识别相结合的情感分析框架,分别在四种社交媒体平台上对四类隐私泄露事件典型案例中围观者的评论进行抓取和处理,采用LDA主题提取模型进行主题提取,通过百度情感倾向分析进行情感分类,最终进行情感对比分析。【结果/结论】总体而言,大约75%的围观者对隐私泄露事件持负面情绪,其中围观者对社会隐私泄漏的负面情绪占比最高达82%。具体到各平台的围观者,微信公众号和微博的围观者负面情绪较多,知乎中的围观者中性、负面情绪较多,抖音平台的围观者正面情绪占比较高。根据研究结果,提出了相应的建议。【创新/局限】本文创新性地探讨了四种社交媒体上的围观者对四类隐私泄露事件的情感差异,情感的情景与强度维度研究不够深入。  相似文献   

20.
周鑫  熊回香  肖兵 《情报科学》2023,(3):145-154
【目的/意义】针对在线医疗信息结构松散,医疗平台医生推荐精度不足的现状,设计了一种基于标签和患者咨询文本的医生推荐算法,提升医生推荐效果。【方法/过程】利用Word2vec模型训练患者咨询文本得到特征向量,改进余弦相似度算法计算医生推荐集A;利用LDA模型训练医生标签得到医生在主题上投影的概率分布,改进KL距离算法计算医生推荐集B;基于社会网络分析理论设计相关算法重构医生网络链接,选择中心性指标得到最终医生推荐集C。【结果/结论】以“丁香医生”数据进行实证,面向UGC数据丰富了算法的可用程度,弥补了单一推荐方法的不足,提高了推荐的精度。本文所提方法有效提升了医生推荐精度。【创新/局限】通过融合标签和患者咨询文本,采用社会网络分析实现了医生混合推荐。虽然通过中心性指标进行重要医生挖掘,但挖掘效果有提升空间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号