共查询到20条相似文献,搜索用时 31 毫秒
1.
【目的/意义】文本表示是自然语言处理的基础工作,是信息检索、文本分类、问答系统的关键问题。【方法/ 过程】论文介绍了传统的文本表示方法,按照文本不同的粒度,回顾了近五年国内外基于神经网络模型的词表示、 句子表示、篇章(段落)表示的方法,并提出了未来的研究方向。【结果/结论】实验发现,通过在神经网络模型中融入 更多的特征能得到更优的词向量,但词向量还缺乏统一的评价标准,句子向量表示通常根据具体NLP任务建模,不 同结构的模型在特征表示、运算速度上各有优劣势,篇章表示通常使用层次组合模型。 相似文献
2.
【目的/意义】对互联网产生的大量文本数据进行有效分类,提高文本处理效率,为企业用户决策提供建
议。【方法/过程】针对传统的词向量特征嵌入无法获取一词多义,特征稀疏、特征提取困难等问题,本文提出了一种
基于句子特征的多通道层次特征文本分类模型(SFM-DCNN)。首先,该模型通过Bert句向量建模,将特征嵌入从
传统的词特征嵌入升级为句特征嵌入,有效获取一词多义、词语位置及词间联系等语义特征。其次,通过构建多通
道深度卷积模型,将句特征从多层级来获取隐藏特征,获取更接近原语义的特征。【结果/结论】采用三种不同的数
据对模型进行验证分析,采用对比相关的分类方法,SFM-DCNN模型准确率较其他模型分类性能有所提高,这说
明该模型具有一定的借鉴意义。【创新/局限】基于文本分类中存在的一词多义、特征稀疏问题,创新性地利用Bert来
抽取全局语义信息,并结合多通道深层卷积来获取局部层次特征,但限于时间和设备条件,模型没有进行进一步的
预训练,实验数据集不够充分。 相似文献
3.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息
的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型-
向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜
在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元
共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权
CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/
结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元
CLSVSM。 相似文献
4.
5.
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类
时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方
法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高
阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明,
CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题
发现。 相似文献
6.
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出
一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时
序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强
其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法
对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具
有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提
升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单
元和语法结构。 相似文献
7.
【目的/意义】实体关系抽取是构建领域本体、知识图谱、开发问答系统的基础工作。远程监督方法将大规
模非结构化文本与已有的知识库实体对齐,自动标注训练样本,解决了有监督机器学习方法人工标注训练语料耗
时费力的问题,但也带来了数据噪声。【方法/过程】本文详细梳理了近些年远程监督结合深度学习技术,降低训练
样本噪声,提升实体关系抽取性能的方法。【结果/结论】卷积神经网络能更好的捕获句子局部、关键特征、长短时记
忆网络能更好的处理句子实体对远距离依赖关系,模型自动抽取句子词法、句法特征,注意力机制给予句子关键上
下文、单词更大的权重,在神经网络模型中融入先验知识能丰富句子实体对的语义信息,显著提升关系抽取性能。
【创新/局限】下一步的研究应考虑实体对重叠关系、实体对长尾语义关系的处理方法,更加全面的解决实体对关系
噪声问题。 相似文献
8.
9.
【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工 智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理 的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习 模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习 的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智 能化程度,还可以提高数字图书馆信息服务的效率和质量。 相似文献
10.
11.
【目的/意义】为应对线上技术供需信息超载导致的检索难、信息非结构化导致的供需文本匹配难的问题,
开展技术供需信息语义匹配研究。【方法/过程】构建技术领域本体,利用SAO结构分析提取技术供需信息中多维
语义结构特征,表征供给技术的创新特征及技术需求的问题特征。应用基于本体信息内容与语义距离相似算法,
结合词向量与熵值分析,提出技术供需多维语义结构匹配模型。【结果/结论】对线上新能源领域技术供需数据进行
测试,验证模型有效性,为提高技术供需主体信息检索效率、促进供需对接提供思路,并为考虑供需信息匹配的科
技主体推荐提供决策。 相似文献
12.
【目的/意义】针对学术APP评论数据特征,挖掘用户评论语义关联关系,为平台运营者和开发者高效获取
用户需求和关注点提供思路和指导方法。【方法/过程】首先,基于LDA主题模型和GloVe 词向量模型构建学术APP
用户在线评论主题语义关联研究框架,然后,采集超星移动图书馆APP在线评论作为样本数据,通过主题识别获取
用户评论主题并基于词向量相似性得到主题语义关联,最后构建出语义关联主题图谱。【结果/结论】实验结果表明
运用文章提出的思路方法能够有效发现用户评论主题和主题间关联关系并得到主题关联图谱,从而为学术APP平
台运营者完善平台功能提供参考和借鉴。 相似文献
13.
针对现有的评价方面抽取方法无法充分利用评论文本中字词包含的复杂语义问题,提出了一种融合多层次语义的网络评价方面抽取模型.首先将卷积神经网络(CNN)训练的字符表示与Word2Vec预训练的词向量进行拼接,构建字词融合的特征表示,利用注意力机制对字词融合的特征表示进行重要程度标识,获得融合注意力的特征表示;构建由CNN和双向长短期记忆网络(BiLSTM)组成的混合神经网络,利用CNN的强学习能力提取字、词的局部语义特征信息,利用BiLSTM全局特征提取能力捕捉字、词之间长距离的上下文语义信息,实现多层次语义融合,最后利用条件随机场学习标签之间的约束条件,输出评论文本最优的序列标注结果,并以酒店评论文本为实验数据集,对所提模型与方法进行可行性和有效性验证.结果表明:本模型具有更好的评价方面抽取效果,可以为基于文本的评价研究与分析提供优质的数据源. 相似文献
14.
【目的/意义】突发事件新闻具有连续性特征,现存的语义模型无法很好地表示这一特征,通过构建突发事
件新闻语义模型可以实现对这些连续性信息的深层次语义描述和利用。【方法/过程】本文根据由表及里的建模思
维,构建了一个突发事件新闻深层次语义描述本体模型。该模型分为元数据和内容语义两部分,内容语义部分以
事件为起点、以连续性情景和动作为核心。在对突发事件新闻案例进行语义描述的基础上,实现了语义检索、语义
推理、语义数据可视化分析等应用。【结果/结论】通过语义标注和应用实验,验证了该模型的可用性。【创新/局限】本
文提出的突发事件新闻本体模型,较好地解决了突发事件新闻连续性信息的语义标注问题。 相似文献
15.
【目的/意义】针对基于关键词的科技文献聚类研究进行了一些探讨,包括:使用具有不同特征的关键词来
实现文献聚类在效果上有何差异;如何按特征对关键词进行选择来提高文献聚类效果。【方法/过程】按照关键词词
频与语义类型特征设置对照组进行实证研究,观察其对文献聚类密度及文献语义表示效果的影响。【结果/结论】单
独使用具有超高频、次高频、研究主题或限定范围特征的关键词进行文献聚类能使聚类密度较为合适;超高频特征
通常在其他频次中都具有体现,次高频词能同时反映不同频次的关键词特征,但次高频词对中频词特征的表示不
够全面;将语义类型不同的关键词分开来实现文献聚类,其效果好于将关键词进行组配,语义类型不同的关键词间
存在互斥性。【创新/局限】本文发现了在以关键词间的共现关系为基础来进行文献聚类时单独选择次高频或某一
语义类别的关键词来实现文献聚类具有较好效果,但缺少对关键词间语义结构关系的进一步研究。 相似文献
16.
【目的/意义】基于机器学习算法对信息进行聚类及预测引起了广泛关注,本文将以航空公司客户信息为对
象构建出k-means,BP神经网络模型,对航空用户进行聚类及预测,实现用户的精准营销。【方法/过程】首先,对航
空公司的客户信息进行预处理,并根据信息聚类和信息预测理论,构建出k-means客户聚类模型与BP神经网络的
流失预测模型。【结果/结论】实证结果表明,在聚类模型上,k-means算法将客户聚为五类,实现了不同价值客户的
差异化识别;在客户预测模型上,BP神经网络的准确性更高。【创新/局限】本次研究将LRFMC模型引入到用户聚
类模型的实验中,使得模型泛化能力上存在了一定的局限,但也为该问题的未来研究提供了新的方式。 相似文献
17.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分,
为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇
章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者
用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度
矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层
次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】
本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标
签确定的方法比较简单,可以进一步探究。 相似文献
18.
【目的/意义】社交媒体在改变新闻传播以及人类获取信息方式的同时,也成为了虚假新闻传播的主要渠
道。因此,快速识别社交媒体中的虚假新闻,扼制虚假信息的传播,对净化网络空间、维护公共安全至关重要。【方
法/过程】为了有效识别社交媒体上发布的虚假新闻,本文基于对虚假新闻内容特征的深入剖析,分别设计了文本
词向量、文本情感、图像底层、图像语义特征的表示方法,用以提取社交网络中虚假新闻的图像特征信息和文本特
征信息,构建多模态特征融合的虚假新闻检测模型,并使用MediaEval2015数据集对模型性能进行效果验证。【结果/
结论】通过对比分析不同特征组合方式和不同分类方法的实验结果,发现融合文本特征和图像特征的多模态模型
可以有效提升虚假新闻检测效果。【创新/局限】研究从多模态的角度设计了虚假新闻检测模型,融合了文本与图像
的多种特征。然而采用向量拼接来实现特征融合,不仅无法实现各种特征的充分互补,而且容易造成维度灾难。 相似文献
19.
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新
闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、
TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类
别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN
的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的
融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确
率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】
本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多
向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。 相似文献
20.
【目的/意义】随着学科交叉与学科融合的不断深入,科研工作越来越需要多个学者合作完成。识别潜在的
合作关系,为学者推荐适合的合作对象,能有效提高科研效率。【方法/过程】基于动态网络表示学习模型对学者合
作关系预测展开研究。首先,提出一种动态网络表示学习模型 DynNE_Atten。其次,根据图书情报领域的文献数
据构建动态科研合作网络和动态关键词共现网络,使用 DynNE_Atten 模型得到作者向量表示和关键词向量表示,
同时提取作者单位特征。最后,融合作者合作、主题与单位特征,预测未来可能产生的合作。【结果/结论】实验结果
表明,本文提出的动态网络表示学习模型在时序链路预测任务中只需要较少的输入数据,就能达到较高的准确性;
相比于未融合特征的学者表示,融合模型在合作关系预测中展现出明显的优势。【创新/局限】提出了一种新的动态
网络表示学习模型,并融合主题特征和作者单位特征进行科研合作预测,取得了较好的结果。目前模型在特征融
合的方式上只考虑了数据层面的异构,并未考虑网络层面的异构。 相似文献