基于多采样双向编码表示的网络舆情主题识别研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于多采样双向编码表示的网络舆情主题识别研究

引用本文：	孙靖超,刘为军.基于多采样双向编码表示的网络舆情主题识别研究[J].情报科学,2021,39(7):147-152.

作者姓名：	孙靖超刘为军

摘要：	【目的/意义】舆情主题识别一直是舆情领域的研究热点，如今已有丰富的研究成果。现有研究对舆情信息进行表征时多采用了传统的词袋模型、主题模型或词向量模型，只能对词语进行唯一的向量表征且传统模型需对文本分词，可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采样双向编码表示的网络舆情主题识别模型，在训练前无需对文本进行分词，针对文本过长的情况采用头尾结合的方式进行截断，从字、段、位置三个维度提取特征嵌入，通过自注意力机制进行舆情表征，在训练过程中使用区分性微调和多采样dropout的方法增强泛化能力，提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任务中表现良好，可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种新型的网络主题识别模型，局限之处在于算法复杂，如何进一步调参优化是接下来的研究重点。

	点击此处可从《情报科学》浏览原始摘要信息
	点击此处可从《情报科学》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏