共查询到20条相似文献,搜索用时 15 毫秒
1.
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息
进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对
文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采
样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的
方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性
微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任
务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种
新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。 相似文献
2.
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出
一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时
序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强
其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法
对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具
有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提
升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单
元和语法结构。 相似文献
3.
【目的/意义】为推动深度学习在网络舆情管理中的应用,提高突发灾害事件网络舆情情感识别效率。【方 法/过程】基于OCC模型建立了突发自然灾害网络舆情情感规则,并由word2vec构建文本向量作为长短期记忆网 络(Long-short term memory,LSTM)的初始输入,对其训练得到突发灾害事件网络舆情多情感识别模型。【结果/结 论】通过对比试验发现,OCC情感规则能够提升情感识别模型的正确率,基于LSTM和word2vec的突发灾害事件 网络舆情情感识别模型在情感识别效果上优于TF-IDF文本向量化方法以及基于卷积神经网络(Convolutional neural network,CNN)和传统的机器学习方式(Support vector machine,SVM)的分类算法结果。 相似文献
4.
【目的/意义】教育招生考试备受社会各界关注,极易触发舆情事件。及时监测并准确研判相关网络信息传
播发展态势,发现潜在舆情并处置应对,对于保障考试安全和维护学校声誉具有重要意义。【方法/过程】采集研究
生复试期间主流媒体社交平台数据,将BERT语言训练模型同BiLSTM相结合,构建深度神经网络模型,对文本的
情感极性进行分析。用TextRank算法提取不同情感极性类属文本的热门主题词,监测潜在舆情并提出管理建议。
【结果/结论】实证结果表明,该模型能够有效挖掘不同情感极性下的热门主题信息,从而发现潜在隐患以及可能发
生的舆情焦点,为高校网络舆情管控提供了方法参考和实践依据。【创新/局限】与传统方法相比,基于BERT的预训
练语言模型可有效解决因数据量少而导致模型无法准确表示不同语句之间复杂关系的局限性,同时BERT可对文
本进行双向建模,捕获不同句子之间的关系特点,提升对文本情感主题挖掘的准确性。 相似文献
5.
【目的/意义】对互联网产生的大量文本数据进行有效分类,提高文本处理效率,为企业用户决策提供建
议。【方法/过程】针对传统的词向量特征嵌入无法获取一词多义,特征稀疏、特征提取困难等问题,本文提出了一种
基于句子特征的多通道层次特征文本分类模型(SFM-DCNN)。首先,该模型通过Bert句向量建模,将特征嵌入从
传统的词特征嵌入升级为句特征嵌入,有效获取一词多义、词语位置及词间联系等语义特征。其次,通过构建多通
道深度卷积模型,将句特征从多层级来获取隐藏特征,获取更接近原语义的特征。【结果/结论】采用三种不同的数
据对模型进行验证分析,采用对比相关的分类方法,SFM-DCNN模型准确率较其他模型分类性能有所提高,这说
明该模型具有一定的借鉴意义。【创新/局限】基于文本分类中存在的一词多义、特征稀疏问题,创新性地利用Bert来
抽取全局语义信息,并结合多通道深层卷积来获取局部层次特征,但限于时间和设备条件,模型没有进行进一步的
预训练,实验数据集不够充分。 相似文献
6.
【目的/意义】社交媒体在改变新闻传播以及人类获取信息方式的同时,也成为了虚假新闻传播的主要渠
道。因此,快速识别社交媒体中的虚假新闻,扼制虚假信息的传播,对净化网络空间、维护公共安全至关重要。【方
法/过程】为了有效识别社交媒体上发布的虚假新闻,本文基于对虚假新闻内容特征的深入剖析,分别设计了文本
词向量、文本情感、图像底层、图像语义特征的表示方法,用以提取社交网络中虚假新闻的图像特征信息和文本特
征信息,构建多模态特征融合的虚假新闻检测模型,并使用MediaEval2015数据集对模型性能进行效果验证。【结果/
结论】通过对比分析不同特征组合方式和不同分类方法的实验结果,发现融合文本特征和图像特征的多模态模型
可以有效提升虚假新闻检测效果。【创新/局限】研究从多模态的角度设计了虚假新闻检测模型,融合了文本与图像
的多种特征。然而采用向量拼接来实现特征融合,不仅无法实现各种特征的充分互补,而且容易造成维度灾难。 相似文献
7.
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问
题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先
进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源
环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类
关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局
限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限
制,模型精度尚未达到峰值,有待进一步优化提升。 相似文献
8.
一种基于词上下文向量的文本自动分类方法 总被引:1,自引:0,他引:1
分析了传统文本自动分类方法的不足、词上下文向量的含义及其在自动分类中的作用,提出了一种基于词上下文向量的文本自动分类方法,该方法利用词上下文向量来生成分类器的类别中心向量和待分类文本的文本向量,使分类质量有所提高。 相似文献
9.
【 目的/意义】开展面向领域的细粒度命名实体识别研究对于提升文本挖掘精度具有重要的意义,本文以番
茄病虫害命名实体为例,探索采用深度学习技术实现面向领域的细粒度命名实体识别研究方法。【目的/意义】文章
以电子书、论文、网页作为数据源,选择品种、病虫害、症状、时间、部位、防治药剂六类实体进行标注,利用BERT和
CBOW 预训练字向量分别输入 BiLSTM-CRF 模型训练,并在识别后补充规则控制实体的边界。【结果/结论】
BERT预训练的字向量和BiLSTM-CRF结合,在补充规则控制后F值达到了81.03%,优于其它模型,在番茄病虫害
领域的实体识别中具有较好的效果。【创新/局限】BERT预训练的字向量可以有效降低番茄病虫害领域实体因分
词错误带来的影响,针对不同实体的特点,补充规则可以有效控制实体边界,提高识别准确率。但本文的规则补充
仅在测试阶段,并没有加入训练过程,整体的准确率还有待提高。 相似文献
10.
【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工 智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理 的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习 模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习 的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智 能化程度,还可以提高数字图书馆信息服务的效率和质量。 相似文献
11.
【目的/意义】探究针对微博文本的基于深度学习的情绪分类有效方法,研究微博热点事件下用户转发言论的情绪类型与隐私信息传播的关系。【方法/过程】选用BERT、BERT+CNN、BERT+RNN和ERNIE四个深度学习分类模型设置对比实验,在重新构建情绪7分类语料库的基础上验证性能较好的模型。选取4个微博热点案例,从情绪分布、情感词词频、转发时间和转发次数四个方面展开实证分析。【结果/结论】通过实证研究发现,用户在传播隐私信息是急速且短暂的,传播时以“愤怒”和“厌恶”等为代表的消极情绪占主导地位,且会因隐私信息主体的不同而产生情绪类型和表达方式上的差异。【创新/局限】研究了用户在传播隐私信息行为时的情绪特征及二者的联系,为保护社交网络用户隐私信息安全提供有价值的理论和现实依据,但所构建的语料库数据量对于训练一个高准确率的深度学习模型而言还不够,且模型对于反话、反讽等文本的识别效果不佳。 相似文献
12.
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络
医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路,
并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够
实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT
模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构
建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能
以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价
值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。 相似文献
13.
【目的/意义】文本情感分类是近年来情报学领域的研究热点之一。已有研究大多关注针对目标文本的单
一情感分类。本文旨在探索基于深度学习的电商评论信息多刻面情感分类方法。【方法/过程】提出一种基于Atten⁃
tion-BiGRU-CNN的多刻面情感分类模型,通过BiGRU和CNN获取上下文信息和局部特征,利用Attention机制
优化隐层权重,以深度挖掘文本内隐语义和有效刻画多刻面情感。【结果/结论】在中文电商评论信息语料上的实验
表明,相较于其他神经网络模型,本文方法可有效提高多刻面情感分类的准确度。【创新/局限】进一步丰富多刻面
情感分类的方法途径,为深度挖掘电商评论信息以及优化产品和营销策略提供参考。本文语料主要基于单一类别
电商评论信息,聚焦可归纳刻面的情感分类,进一步的研究可面向类别多元化、需通过深度学习提取刻面信息的更
大规模语料展开。 相似文献
14.
【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联 网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了 解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然 后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦 点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。 【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚 类效果,有效的获取各阶段的话题焦点。 相似文献
15.
16.
【目的/意义】如何识别文本中的知识片段进行标引,使检索系统能检索文本知识内容是提高用户信息利 用效率的关键。【方法/过程】在文献调查的基础上,文章基于本体概念模型和Word2Vec词向量模型阐述了文本片 段语义标引的流程框架,并对本体语义扩展、神经网络模型训练、文本片段标引、文本片段权重获取四个部分的关 键环节及技术做了详细说明。最后通过实验验证了该流程框架。【结果/结论】实验结果显示该方法在文本知识片 段识别上是有效的,知识识别的准确率达到80%,能够实现对文本知识内容进行标引。该方法为自动化实现基于知 识的文本信息组织提供了有益的参考。 相似文献
17.
【目的/意义】文本表示是自然语言处理的基础工作,是信息检索、文本分类、问答系统的关键问题。【方法/ 过程】论文介绍了传统的文本表示方法,按照文本不同的粒度,回顾了近五年国内外基于神经网络模型的词表示、 句子表示、篇章(段落)表示的方法,并提出了未来的研究方向。【结果/结论】实验发现,通过在神经网络模型中融入 更多的特征能得到更优的词向量,但词向量还缺乏统一的评价标准,句子向量表示通常根据具体NLP任务建模,不 同结构的模型在特征表示、运算速度上各有优劣势,篇章表示通常使用层次组合模型。 相似文献
18.
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别
模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完
善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基
础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用
warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数
据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于
98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的
考虑和融合。 相似文献
19.
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环
境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:①基于文本网
络和改进PageRank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;②增加特征值IDF值
的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的
不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分
类效果,验证了该方法能够有效提高文本特征词提取的准确度。 相似文献
20.
【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的
分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非
重叠部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行
分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模
型的分类效果有所提升,是一种有效的文本分类方法。 相似文献