首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 500 毫秒
1.
针对文本分类领域的有监督学习往往需要大量精准标注样本但大量人工标注困难的问题,提出一种新型的半监督学习方式,通过协同训练合理使用大量未标记训练样本,通过添加不同分类的文本特征噪声解决传统协同半监督学习方法中模型参数趋于统一的问题,同时提高分类模型的分类能力。针对传统深度学习方法中文本特征权重一致导致的分类特异性特征不突出问题,在训练模型中加入 self-attention 机制对文本句子特征权重进行提取,并通过句子加权方式突出特异性分类特征。实验结果表明,通过半监督学习方式同时使用少量已标注数据进行训练,模型能够达到 91.4%的准确率,召回率达到 84.3%,与有监督训练方式的分类准确能力相近,从而解决大量人工标注问题,具有一定的使用价值。  相似文献   

2.
针对现有卷积神经网络模型参数量大、训练时间长的问题,提出了一种结合VGG模型和Inception模块特点的网络模型。该模型通过结合两种经典模型的特点,增加网络模型的宽度和深度,使用较小的卷积核和较多的非线性激活,在减少参数量的同时增加了网络特征提取能力,同时利用全局平均池化层替代全连接层,避免全连接层参数过多容易导致的过拟合问题。在MNIST和CIFAR-10数据集上的实验结果表明,该方法在MNIST数据集上的准确率达到了99.76%,在CIFAR-10数据集上的准确率相比传统卷积神经网络模型提高了6%左右。  相似文献   

3.
近年来,随着智能移动设备的普及,人们可以随时随地通过网络社交媒体获取与分享信息。然而,便捷的上网方式以及自由的网络空间,也为网络谣言的产生与传播提供了条件,广泛传播的谣言可能具有极大的破坏性。因此,及时识别谣言对于保障社会稳定具有重要意义。使用词嵌入对微博短文本进行向量化处理,然后使用朴素贝叶斯、K最近邻和支持向量机对文本向量进行主题分类,以期及时发现具有周期性出现特点的谣言。将该模型在中文谣言真实数据集上进行有效性验证,使用5 487条数据作为训练集,2 703条数据作为测试集进行分类实验。实验结果表明,K最近邻模型相比于朴素贝叶斯模型及支持向量机模型,在谣言主题分类任务中表现最佳,其F1值和分类准确率都达到0.93,表明基于词嵌入的谣言主题分类方法可及时发现周期性谣言。  相似文献   

4.
针对文本分类算法的选择问题,使用二十新闻组数据集在开源的数据挖掘软件Weka上进行了仿真实验。通过实验结果综合评价了朴素贝叶斯算法、IB1算法和ZeroR算法的性能。实验结果表明在三种算法中朴素贝叶斯算法的准确率最高,ZeroR算法的运算速度最快。研究表明文本分类的效率受所选算法的影响较大,合适的算法可以显著地提高文本分类的准确率。  相似文献   

5.
问答系统是自然语言处理领域一个非常热门的研究方向,问题分类是问答系统非常重要的环节。传统问题分类需要人工制定特征提取策略并不断优化特征规则,该方法准确率不高且费时费力。传统卷积神经网络模型先通过卷积核提取能表示问句特征的向量,再经过max-pooling后得到一个特征值,并未考虑句子的结构信息,在训练时容易发生过拟合。针对上述问题,采用分段池化操作,引入句子结构信息,在不同分段上提取句子的主要特征并加入Dropout算法,提高模型的泛化能力,防止模型过拟合。实验结果表明,该方法能提高模型准确率,在TREC 6分类问题数据集上准确率高达89.2%,在银行57分类数据集上准确率也达到了64.5%。  相似文献   

6.
为提高大数据集粗分类识别率,提出一种基于聚类分析的SVM-Kd-tree树型粗分类方法。首先根据数据集特征分布进行k-means两簇聚类,对聚类后的数据集进行类别分析,同时将属于两簇的同一类别样本划分出来;然后使用两簇中剩余样本训练SVM二分类器并作为树型结构根节点,将两簇数据分别合并,将划分出来的样本作为左右子孩子迭代构建子节点,直到满足终止条件后,叶子节点开始训练Kd-tree。实验结果表明,迭代构建树型粗分类方法使训练单一SVM平均时间减少了61.977 4%,比Kd-tree同近邻数量的准确率提高了0.03%。在进行大规模数据集粗分类时,使用聚类分析迭代构建组合分类器时间更短、准确率更高。  相似文献   

7.
基于迁移学习的家猪图像识别研究   总被引:1,自引:0,他引:1  
为实现家猪图像识别并提高识别准确率,提出一种基于迁移学习的家猪图像识别方法。首先对现有数据集进行数据增强,然后迁移 VGG16 模型并对其进行微调,从而更好地提取图像特征并缩短网络训练时间。采用自归一化神经网络解决了梯度消失和梯度爆炸问题,在网络构造时使用全局平均池化代替全连接层,以达到降低模型过拟合的效果。实验对比结果表明,该方法分类效果较好,准确率达到了 84%,召回率和 F1 值分别提升至 0.8、0.82,各项指标相比基础模型均有所提升。  相似文献   

8.
为改善传统个性化推荐算法精准度不高的问题,使用评论数据作为数据集,先对评论数据作文本预处理和特征提取,然后使用LDA主题模型对文本特征数据建模,得到主题词分布,将其作为标签,同时使用LSTM网络作文本分类,通过计算得到好评率。最后把用户需求和标签利用潜在语义标引计算相似度,根据相似度和好评率大小向用户推荐结果。实验结果表明,该方法能够向用户推荐符合其兴趣的个性化需求信息,且准确率高于96%,证明了该推荐算法的有效性。  相似文献   

9.
针对当前基于LDA模型扩展的文本情感分析方法未能考虑同一词语在不同语境下其情感极性的差异及非特征情感词对微博文本情感极性的影响这两个问题,提出一种基于语境分类和遗传算法的微博情感分析方法。该方法首先利用LDA模型构造微博主题集及微博主题词集,然后用微博标签数据逐一对各微博主题词集应用遗传算法自动迭代计算得出词集中词语的情感值,最后利用词集词语的情感值计算微博文本情感极性。实验结果表明,该方法精确度比LDA提升3.12%,召回率达87.32%,F1达73.79%,能够从语境和非特征情感词获取微博情感信息,有效提高情感分类准确率。  相似文献   

10.
提出一种基于中心核对齐的模糊支持向量机(Centered kernel alignment-based fuzzy support vector machine, CKA-FSVM)算法并应用于中文农业文本分类.首先通过爬虫技术获取2 246个中文农业文本并进行数据预处理,然后进行文本向量化和特征处理,最后构建分类器模型,实现中文农业文本的自动分类.实验结果显示CKA-FSVM算法在中文农业文本分类上的平均准确率为91.69%,平均F1值为94.96%,比5个对比算法中的最好结果分别提升了0.04和0.24个百分点,表明该模型在中文农业文本分类领域具有较好的性能.  相似文献   

11.
农业短文本中包含词数较少,导致语义获取不充分和分类效果下降。利用 Attention 机制加强关键词在分类时的权重,并结合 BiLSTM 设计 LSTM-Attention 模型。对 30 000 份原始数据经过中文分词、句法分析、文本向量化后,将 LSTM-Attention 模型训练成一个 LSTM-Attention 分类器,解决分类器对待分类文本数据敏感的问题。利用 30 000 份标准数据和加 30%干扰信息的复杂数据测试分类器分类效果,结果表明,LSTM-Attention 模型分类正确率达 98.59%,比传统 LSTM 模型高 3.72%,比 BiLSTM 模型高 1.61%,说明使用 BiLSTM 结 合 Attention 机制能够有效提升农业短文本分类效果。利用不同测试数据对 LSTM-Attention 分类器测试发现,LSTM-Attention 分类器具有良好收敛性,其分类效果不依赖于分类数据特征,分类效果稳定性佳。  相似文献   

12.
词相似度计算在文本分类等自然语言处理众多任务中有广泛应用,为了提高准确率并将其应用于文本分类任务中,提出基于知网与同义词林以及基于nGram训练大规模语料相结合的方法,通过词义演化技术检测词义变化确定两种方法的权重,利用皮尔逊相关系数对比人工定义词语相似度。通过实验将该方法与基于知网和同义词林的方法进行对比,根据随时间改变而词义有无变化选取15对词语进行测试,结果表明后者比前者提高了28%。由此可以看出,基于语料与语义词典的方法明显比单纯基于语义词典的方法好,但仍有较大改进空间。  相似文献   

13.
Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用,如何将web文档转换成数据挖掘所要求的格式,即web文档预处理是一项很重要的研究课题.本文的方法是:从Internet网上下载了大量的网页文件,将网页文件转换成文本文件,然后通过算法对这些文本文件中的数据进行词频统计,删除非用词,去掉高频词,对单词进行词根处理,建立用词词表,从而抽取用词,按字母排序生成词频索引,和字典文件进行对照,获取单词的ID,最后生成Reuters-21578的Database数据格式.这样就将web文档数据转换成标准的数据集,以便为数据挖掘中分类、聚类作好准备.  相似文献   

14.
文本分类是自然语言处理中的一项重要基础任务,指对文本集按照一定的分类体系或标准进行自动分类标记。目前网络文化监督力度不够、不当言论不受限制,导致垃圾评论影响用户体验。因此提出一种基于注意力机制的CLSTM混合神经网络模型,该模型可以快速有效地区分正常评论与垃圾评论。将传统机器学习SVM模型和深度学习LSTM模型进行对比实验,结果发现,混合模型可在时间复杂度上选择最短时间,同时引入相当少的噪声,最大化地提取上下文信息,大幅提高评论短文本分类效率。对比单模型分类结果,基于注意力机制的CLSTM混合神经网络模型在准确率和召回率上均有提高。  相似文献   

15.
This paper presents the results of a research project on the impact of word processing on faculty writing behaviour. A case study methodology was used to conduct the research. Data from 120 faculty members (N = 150) were collected through questionnaires and interviews. Final results indicate that faculty are increasingly adopting word processing for writing (69%) and are changing their writing behaviour in this process: they do more revisions, write most of their works online, use computer‐mediated communication to support their writing and use spelling checkers on a regular basis. The major Expected Benefit identified by respondents is the ease of text revision: this feature is the primary cause for the adoption of word processing among faculty. The major Expected Disadvantages are the amount of learning required at the time, both initially and on an on‐going basis, that is consumed. Unexpected Outcomes of word processing were also identified, such as more concern with page layout, reusing previously written text, and excessive writing. The existence of “personal side effects”, linked to the use of computers for word processing, calls for a flexible approach to the introduction of this technology. In particular, those who have not yet adopted the technology may be more likely to experience negative side effects. Therefore, the study concludes, rather than a bandwagon gathering momentum, a better analogy might be that of a train easing into the station, decreasing its speed to maximize comfort for the passengers.  相似文献   

16.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

17.
随着互联网的迅猛发展,网上健康信息以几何速度增长,其中大量虚假健康信息给人们的生活带来了很大影响,但目前对虚假健康信息文本识别的研究非常缺乏,以往研究主要集中在识别微博上的谣言、伪造商品评论、垃圾邮件及虚假新闻等方面。鉴于此,采用基于词向量的深度神经网络模型和基于双向编码的语言表征模型,对互联网上流传广泛的健康信息文本进行自动分类,识别其中的虚假健康信息。实验中,深度网络模型比传统机器学习模型性能提高10%,融合Word2vec的深度神经网络模型比单独的CNN或Att-BiLSTM模型在分类性能上提高近7%。BERT模型表现最好,准确率高达88.1%。实验结果表明,深度学习可以有效识别虚假健康信息,并且通过大规模语料预训练获得的语言表征模型比基于词向量的深度神经网络模型性能更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号