首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 921 毫秒
1.
李慧  王丽婷 《情报科学》2018,36(4):45-50
【目的/意义】随着网民规模的扩大以及微博数据的增长,获取微博空间的热点话题是一项有价值的任务。 本文结合微博的特点提出专门针对中文微博的热点话题发现模型。【过程/方法】本文提出利用词项H指数筛选出 热点词项,然后利用BTM建模和VSM建模的结果相融合计算文本相似度,再利用k-means 聚类算法发现微博的热 点话题。【结果/结论】本文在提取特征阶段既考虑了微博词项的热度又考虑了其短文本性,通过实验验证本文提出 的方法有利于发现准确的热点话题。  相似文献   

2.
王曦  陈铎 《情报科学》2022,40(7):55-60
【目的/意义】为把握招生考试过程中网络舆论的基本特点和发展规律,及时发现潜在舆情隐患,本研究对 考研复试期间国内主流网络社交平台的相关话题讨论文本进行了主题演化研究。【方法/过程】使用 Python采集数 据,BTM模型对数据中的词对建模来进行主题挖掘和聚类,对各主题强度和内容随时间的演化进行分析。【结果/结 论】主题强度和内容演化结果显示,公众的关注点与招生录取进程密切相关,并呈现一定的周期和规律性,能够做 为网络舆情预测的依据。【创新/局限】BTM模型克服了短文本语料中的数据稀疏问题,能够有效进行主题挖掘,但 同时也存在语义理解不足,需要人工辅助解读的问题,需要在后续研究中进一步改进。  相似文献   

3.
梁珊  邱明涛  马静 《情报科学》2017,35(7):44-49
【目的/意义】考虑到使用LDA模型进行主题抽取时,抽取到的特征词是无序的,破坏了原有的主谓宾结 构,导致抽取效果不准确,可读性差的缺陷,构造了WO词序模型,并将LDA模型与WO模型结合,提出了基于 LDA-WO混合模型的微博主题有序特征抽取算法。【方法/过程】使用LDA模型进行主题建模,获得无序特征词, 然后通过WO模型对特征词进行排序,将特征词与原语料进行对比,构造特征词-语料位置矩阵,通过对特征词的 位置排序,构造特征词词序权值矩阵,最终获得有序的特征词,完成对话题特征的有序抽取。【结果/结论】本文以真 实新浪微博数据为实验对象,实验结果表明基于LDA-WO模型的特征词提取方法进行特征抽取,抽取到的特征词 可读性更强,可弥补传统LDA模型在话题可解释性上的不足。  相似文献   

4.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息 的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型- 向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜 在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元 共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权 CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/ 结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元 CLSVSM。  相似文献   

5.
王彦慈 《情报科学》2017,35(8):23-27
【目的/意义】当前微博已成为重要的舆论场,针对海量微博信息的舆情难以快速获取的问题,提出一种基 于云计算的微博舆情流式快速自聚类方法。【方法/过程】该方法首先设计舆情最小距离聚类算法,包括构建舆情相 似度计算模型,及构建舆情最佳聚类阈值确定方法;然后构建舆情流式自聚类模型,该模型利用云计算和最小距离 聚类算法在横、纵两个方向聚类舆情信息,得到各主题的舆情集合。在横向上,以云计算的多个计算节点为聚类起 始,同步并行聚类分配到其上的舆情信息。在纵向上,多个计算节点协同、流水线式聚类同一起始节点的舆情信 息;最后在纵向上聚类舆情集合,将同主题舆情集合聚为一类。【结果/结论】实验结果表明:该方法能有效加快微博 舆情获取速度,且具有较高的舆情获取准确率。  相似文献   

6.
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类 时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方 法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高 阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明, CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题 发现。  相似文献   

7.
刘子溪  朱鹏 《情报科学》2017,35(8):94-100
【目的/意义】微博作为主要的社会化媒体,微博话题可信度评估以及从认知角度了解影响微博信息传播的 因素对判别信息可信度具有重要意义。【方法/过程】本文基于现有的详尽可能性模型对信息可信度的研究,从微博 内容、微博作者、社交网络传播三个维度,对影响微博话题可信度的因素进行研究。【结果/结论】结果发现,微博内 容信源的可信度对内容可信度存在显著正向影响,内容可信度对微博信息话题可信度存在显著正向影响,作者专业 知识对作者可信度存在显著正向影响,作者可信度对微博信息话题可信度存在正向显著影响。  相似文献   

8.
易明  马彬  冯儒佳 《情报科学》2017,35(5):15-19
【目的/意义】基于网站历史文档对于揭示群体用户需求的重要价值,探索了一种面向群体用户需求的网站 信息更新模型及实现方法。【方法/过程】首先从网站历史文档中提炼特征词,并通过分析特征词之间的共现关系来 构建特征词共现网络;然后利用网络分析方法对特征词共现网络进行挖掘,以特征词集合的形式揭示群体用户的 现实需求和潜在需求;最后依据群体用户的现实需求视图和潜在需求视图,选择检索词并构造检索式,进而完成信 息检索与信息更新。【结果/结论】依托湖北科技创业在线进行实验分析,验证了方法的科学性与可行性。  相似文献   

9.
安璐  周亦文 《情报科学》2020,38(4):9-16
【目的/意义】构建用户特征指标体系,对恐怖事件情境下微博信息与评论用户进行画像并比较有助于掌握参与恐怖事件讨论用户的特点,加强反恐舆论引导。【方法/过程】以"#巴塞罗那恐怖袭击#"话题下的所有微博及评论数据为例,使用基于相关性的LDA主题模型提取微博主题,从用户特征和文本特征两个角度构建指标体系,并采用两步聚类刻画微博用户特征,分析发布微博用户和评论用户的异同。【结果/结论】以往活跃度、影响力较高的用户在该事件中不一定拥有较高的影响力;原始微博用户的平均等级略低于评论用户,但其在该事件中的影响力高于评论用户;原始微博用户类型多于评论微博用户类型。  相似文献   

10.
崔金栋  郑鹊  孙硕 《情报科学》2017,35(12):22-27
【目的/意义】研究微博网络中话题式信息的传播模型及规律,对控制舆论和掌握微博信息传播规律具有重 要意义。【方法/过程】以微博信息传播中的SEIR模型为出发点,综合考虑微博网络中话题式信息的衍生特性,构建 改良式的微博话题式信息传播H-SEIR模型,并运用MATLAB进行模拟仿真,对微博中话题式信息传播影响因素 和对应的控制策略进行研究。【结果/结论】验证了所构建的改良微博话题式信息传播H-SEIR模型的可行性和有效 性,揭示了移动网络环境下话题式信息传播规律,为现实微博网络的监管控制策略的制定提供了理论依据。  相似文献   

11.
吴鹏  诗童  凌晨 《情报科学》2022,40(7):12-18
【目的/意义】通过对微博数据的挖掘,了解公众的态度和需求,为新冠疫苗后续的推广或其他疫苗的推广 提供一定的参考。【方法/过程】基于内容分析法对564条微博热搜词条进行分类编码,得出公众广泛关注的10大主 题。将BTM主题模型和关联规则相结合,进一步对主题包含的热搜话题下的推文和评论进行挖掘,更详细地了解 公众的态度和需求。【结果/结论】公众对我国新冠疫苗的态度总体上是积极的,公众最关注的问题为新冠疫苗的不 良反应情况、接种禁忌、保护效果。【创新/局限】本研究的创新点在于通过微博平台热搜数据的主题发现研究,分析 了公众对新冠疫苗的态度和需求。  相似文献   

12.
【目的/意义】随着移动互联网的发展,微博的普及进一步加速了社会突发事件的传播。转发作为最重要的用户信息行为,在很大程度上预示了网络舆情的发展趋势。但是,鲜有研究关注微博内容中的心理语言使用与转发行为的关系。本研究拓展了心理语言学在社会突发事件情境下的应用领域,为政府或企业应急管理部门有效引导网络舆情提供了实践启示。【方法/过程】本文以九寨沟地震事件为例,基于LIWC文本分析工具研究了微博用户心理过程对于转发行为的影响,通过构建VAR向量自回归模型并进行格兰杰因果检验,确定了微博转发行为的心理语言影响因素,并进一步运用脉冲响应函数对转发行为进行了动态分析。【结果/结论】根据实证研究的结果,社会过程词和情感历程词对微博用户的转发行为具有一定的预测作用。  相似文献   

13.
李湘东  阮涛  潘练 《情报科学》2018,36(4):14-21
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。  相似文献   

14.
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。  相似文献   

15.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

16.
周源  刘怀兰  杜朋朋  廖岭 《情报科学》2017,35(5):111-118
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环 境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:①基于文本网 络和改进PageRank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;②增加特征值IDF值 的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的 不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分 类效果,验证了该方法能够有效提高文本特征词提取的准确度。  相似文献   

17.
王正成  袁竹星 《情报科学》2018,36(3):112-116
【目的/意义】在微博中,意见领袖对于消息的传播以及舆情走向起着关键的作用。然而,现有的意见领袖 研究大多忽略了意见领袖在特定话题下的意见代表性。【方法/过程】提出了面向主题的微博意见领袖研究的方法, 该方法旨在利用LDA主题模型挖掘出特定话题中的各个主题,根据主题划分结果对参与话题讨论的用户进行分 类,并结合用户自身属性,借鉴PageRank算法思想挖掘出该主题演化中的意见领袖。【结果/结论】实验证明,本文方 法更能体现特定话题的舆情走向,其针对主题挖掘的意见领袖也更具代表性。  相似文献   

18.
邢云菲  曹高辉  陶然 《情报科学》2021,39(9):101-109
【目的/意义】网络用户在线评论是用户对某产品或服务机构体验感知的反馈,对网络用户在线评论的文 本挖掘是情报分析的重要内容。【方法/过程】为了更有效从海量网络用户在线评论文本中挖掘用户感兴趣的信息, 本研究爬取TripAdvisor网站四大城市的酒店用户在线评论,基于主题图谱理论和文本聚类算法构建网络用户在线 评论的聚类模型,通过图谱可视化揭示不同地区酒店用户观点差异,并分析不同图谱的社会网络特征。【结果/结 论】研究发现酒店用户最关注的是服务,其次是酒店的环境和位置。本研究能够快速挖掘酒店用户关注内容,对帮 助酒店管理者了解用户住宿需求并以此提高用户满意度具有重要价值。【创新/局限】本文结合主题图谱和文本挖 掘技术构建酒店用户在线评论主题图谱,在大数据文本主题聚类上显示出优越性。但本文仅分析TripAdvisor网站 四个城市中部分酒店的用户在线评论,数据面覆盖不够广泛。  相似文献   

19.
刘小平  田晓颖 《情报科学》2018,36(1):96-101
【目的/意义】为了解媒体微博信息传播规律与特征,识别具有高度影响力的媒体微博节点与类型,更有效 地对信息传播进行监管和引导。【方法/过程】研究基于社会网络理论,选取新浪微博中的部分媒体微博为研究样 本,测度其社会网络结构特征,并结合中心度与LeaderRank 算法测度媒体微博影响力。【结果/结论】研究发现,媒体 微博社会网络整体较为紧密,信息在媒体微博网络中的传播速度较快,网络节点之间的整体凝聚性强;网络结构与 节点位置决定着成员的影响力程度;具有高度影响力的核心节点的资源控制能力与话语权相对较大,可以通过改 变中心度、聚类系数等手段引导核心节点,控制信息传播态势。  相似文献   

20.
【目的/意义】基于新浪微博探索健康信息社会网络结构,对不同话语主体的网络位置、传播内容和传播方式进行研究,从而为相关部门的健康舆情管理工作提供参考。【方法/过程】以“新冠感染后”为关键词采集热门微博数据,并构建用户信息传播网络,利用社会网络分析法分析多元话语主体视角下的网络结构特征,使用文本分析工具分析信息传播内容,基于话语策略分析传播方式,从而探索健康信息传播机制。【结果/结论】传播网络呈离散、稀疏状态。官方媒体整体影响力最大,一些专业内容生产者在严肃类健康信息传播方面发挥更大作用,大部分市场化媒体存在感较弱,普通网友具有最强的信息交流能力。四类话语主体的传播内容基本一致,但传播方式风格迥异。官方媒体和市场化媒体以严肃、正式、专业为主,专业内容生产者兼具专业性与亲和力,网友则以多元方式表达情绪和态度。【创新/局限】从多元话语主体视角,运用社会网络分析和文本分析探索健康信息传播规律是新颖之处,但网络结构分析仅基于静态视角展开,且样本量有限。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号