共查询到20条相似文献,搜索用时 812 毫秒
1.
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类
时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方
法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高
阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明,
CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题
发现。 相似文献
2.
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新
闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、
TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类
别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN
的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的
融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确
率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】
本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多
向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。 相似文献
3.
【目的/意义】词是语言的最小单元,词的向量表示决定了机器学习模型的构建方法。深度学习的神经网络 训练得到的词向量,通过无监督的机器学习方法从海量数据中自动学习词汇的语义特征,无需人工标注和复杂繁 琐的特征工程,端到端的完成各种自然语言处理任务,带来了一种新的研究范式,成为学术界的研究热点。【方法/ 过程】介绍了词向量语义表示及优化方法,存在的问题及解决方法,最后指出了词向量未来的研究方向。【结果/结 论】将句法特征、词形特征、(知识库)先验语义知识融入到神经网络模型能增强词向量的语义表示能力,针对词向 量存在的一词多义、解释性差等问题,总结了最新的研究成果。 相似文献
4.
【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工 智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理 的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习 模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习 的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智 能化程度,还可以提高数字图书馆信息服务的效率和质量。 相似文献
5.
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息
进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对
文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采
样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的
方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性
微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任
务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种
新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。 相似文献
6.
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出
一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时
序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强
其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法
对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具
有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提
升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单
元和语法结构。 相似文献
7.
8.
【目的/意义】文本表示是自然语言处理的基础工作,是信息检索、文本分类、问答系统的关键问题。【方法/ 过程】论文介绍了传统的文本表示方法,按照文本不同的粒度,回顾了近五年国内外基于神经网络模型的词表示、 句子表示、篇章(段落)表示的方法,并提出了未来的研究方向。【结果/结论】实验发现,通过在神经网络模型中融入 更多的特征能得到更优的词向量,但词向量还缺乏统一的评价标准,句子向量表示通常根据具体NLP任务建模,不 同结构的模型在特征表示、运算速度上各有优劣势,篇章表示通常使用层次组合模型。 相似文献
9.
10.
【目的/意义】针对学术APP评论数据特征,挖掘用户评论语义关联关系,为平台运营者和开发者高效获取
用户需求和关注点提供思路和指导方法。【方法/过程】首先,基于LDA主题模型和GloVe 词向量模型构建学术APP
用户在线评论主题语义关联研究框架,然后,采集超星移动图书馆APP在线评论作为样本数据,通过主题识别获取
用户评论主题并基于词向量相似性得到主题语义关联,最后构建出语义关联主题图谱。【结果/结论】实验结果表明
运用文章提出的思路方法能够有效发现用户评论主题和主题间关联关系并得到主题关联图谱,从而为学术APP平
台运营者完善平台功能提供参考和借鉴。 相似文献
11.
【目的/意义】社交媒体在改变新闻传播以及人类获取信息方式的同时,也成为了虚假新闻传播的主要渠
道。因此,快速识别社交媒体中的虚假新闻,扼制虚假信息的传播,对净化网络空间、维护公共安全至关重要。【方
法/过程】为了有效识别社交媒体上发布的虚假新闻,本文基于对虚假新闻内容特征的深入剖析,分别设计了文本
词向量、文本情感、图像底层、图像语义特征的表示方法,用以提取社交网络中虚假新闻的图像特征信息和文本特
征信息,构建多模态特征融合的虚假新闻检测模型,并使用MediaEval2015数据集对模型性能进行效果验证。【结果/
结论】通过对比分析不同特征组合方式和不同分类方法的实验结果,发现融合文本特征和图像特征的多模态模型
可以有效提升虚假新闻检测效果。【创新/局限】研究从多模态的角度设计了虚假新闻检测模型,融合了文本与图像
的多种特征。然而采用向量拼接来实现特征融合,不仅无法实现各种特征的充分互补,而且容易造成维度灾难。 相似文献
12.
【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的
分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非
重叠部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行
分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模
型的分类效果有所提升,是一种有效的文本分类方法。 相似文献
13.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息
的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型-
向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜
在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元
共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权
CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/
结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元
CLSVSM。 相似文献
14.
一种基于向量空间模型的改进文本分类算法 总被引:2,自引:0,他引:2
探讨了基于向量空间模型的文本分类技术,通过规范化向量空间模型术语,论述了向量空间模型中TD-IDF向量化文档的不足;提出基于位置等因素的权重改进算法;借助扩展的潜在语义索引算法KLSC和辅助主题词表来消除模型很难处理一词多义、一义多词的现象;根据用户个性化的服务需求,给出了个性化服务的意见。 相似文献
15.
[目的/意义]为了解决因微博文本多义性和复杂性导致的谣言检测中语义特征提取不全面的问题,提出了一种结合微博内外多粒度语义的BiLSTM-CNN-ECA模型。[方法/过程]首先,对微博文本从字词句三个粒度级别建模,运用双向长短期记忆网络提取微博内部语义特征,生成事件字向量矩阵和事件词向量矩阵;然后,拼接事件句向量矩阵形成三维文本特征矩阵,输入多尺度卷积神经网络,并行提取微博之间的依赖关系特征;最后,引入高效通道注意力模块赋予通道权重,进行微博谣言检测。[结果/结论]构建的三维文本特征矩阵有机结合了各粒度文本的语义特征贡献,包含更多、更全面的微博语义信息;ECA可有效捕获通道间重要信息,进一步提高了多尺度CNN模型对谣言检测的准确率。 相似文献
16.
【目的/意义】为应对线上技术供需信息超载导致的检索难、信息非结构化导致的供需文本匹配难的问题,
开展技术供需信息语义匹配研究。【方法/过程】构建技术领域本体,利用SAO结构分析提取技术供需信息中多维
语义结构特征,表征供给技术的创新特征及技术需求的问题特征。应用基于本体信息内容与语义距离相似算法,
结合词向量与熵值分析,提出技术供需多维语义结构匹配模型。【结果/结论】对线上新能源领域技术供需数据进行
测试,验证模型有效性,为提高技术供需主体信息检索效率、促进供需对接提供思路,并为考虑供需信息匹配的科
技主体推荐提供决策。 相似文献
17.
【目的/意义】如何识别文本中的知识片段进行标引,使检索系统能检索文本知识内容是提高用户信息利 用效率的关键。【方法/过程】在文献调查的基础上,文章基于本体概念模型和Word2Vec词向量模型阐述了文本片 段语义标引的流程框架,并对本体语义扩展、神经网络模型训练、文本片段标引、文本片段权重获取四个部分的关 键环节及技术做了详细说明。最后通过实验验证了该流程框架。【结果/结论】实验结果显示该方法在文本知识片 段识别上是有效的,知识识别的准确率达到80%,能够实现对文本知识内容进行标引。该方法为自动化实现基于知 识的文本信息组织提供了有益的参考。 相似文献
18.
19.
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别
模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完
善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基
础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用
warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数
据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于
98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的
考虑和融合。 相似文献
20.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分,
为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇
章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者
用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度
矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层
次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】
本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标
签确定的方法比较简单,可以进一步探究。 相似文献