共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
3.
为了提高文本分类的准确性和效率,提出了一种基于潜在语义分析和超球支持向量机的文本分类模型.针对SVM对大规模文本分类时收敛速度较慢这一缺点,本文将超球支持向量机应用于文本分类,采用基于增量学习的超球支持向量机分类学习算法进行训练和分类.实验结果表明,超球支持向量机是一种解决SVM问题的有效方法,在文本分类应用中具有与SVM相当的精度,但是明显降低了模型复杂度和训练时间. 相似文献
4.
采用向量空间模型(VSM)描述文本,利用隐性语义索引(LSI)R术进行特征重构与降维,构造了BP神经网络文本分类器。将朴素贝叶斯分类技术与前者结合构造了一种混合文本分类器。实验结果表明混合分类器分类准确度和分类速度得到提高。 相似文献
5.
6.
简要介绍语义模板的概念,提出基于语义模板向量空间的文档自动分类模型。利用支持向量机(SVM,Support Vector Machine)分类算法对文档测试集进行基于语义模板空间、词向量空间的分类实验,实验结果表明,基于语义模板空间的文本分类性能比基于词向量空间的分类性能要高。 相似文献
7.
渔业文本分类是充分利用渔业信息资源的有效途径。针对中文文献资料的结构特点,提出一种结合特征词权值和支持向量机(Support Vector Machine,SVM)的渔业文本分类方法,利用向量空间模型(Vector Space Model,VSM)构建文本向量空间,并结合特征词权值计算文本特征向量中的各特征项,将构建的文本向量送入SVM进行渔业文本分类。采用中国知网下载的标准文档进行了实验测试,并考察了准确率和召回率两个指标,实验结果表明,文章提出的渔业文本分类方法具有较好的分类效果。 相似文献
8.
9.
[目的/意义]探索不同社会科学学科间差异,支持学科建设、科技检索服务,进一步完善文献学科的分类体系。[方法/过程]基于多种深度学习模型和预训练语言模型构建社会科学文献学科分类器,利用CSSCI目录中的20多个一级学科中近350万篇文献构成的数据集进行实验;利用Sentence-BERT输出摘要句子向量并进行层次聚类,根据聚类结果划分学科组,并计算模型对于不同学科组的分类性能以缓和学科交叉的影响;利用模糊准确性指标输出模型对每条记录输出的前N个高概率学科以弥补原有学科分类的局限性。[结果/结论]在“摘要+标题”上使用深度预训练语言模型取得最佳性能;基于层次聚类所得的学科组进行的分类较单一学科性能有所提升;模型的模糊准确性在N=3时能够达到96%。[局限]未考虑从全文文本上获取更丰富的文献学科特征进行自动分类。 相似文献
10.
基于改进KNN的文本分类方法 总被引:8,自引:0,他引:8
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。 相似文献
11.
在中文微博数据的文本情感分类任务中使用机器学习方法 ,为研究不同的特征集对情感分类准确率的影响,综合了一元词特征、句法特征、微博特征、基于评价对象特征、词典特征用于支持向量机分类器中,通过准确率、召回率、F指数比较分析不同特征组合对于分类性能的影响。所提方法用于微博数据中关于药品二甲双胍的评论文本,实验结果表明,一元词特征对文本情感分类的准确率高于其他单类特征,而在与句法特征、微博特征、基于评价对象特征、词典特征的综合使用得到了最高的分类精度。 相似文献
12.
基于粗集的支持向量机文本分类方法研究 总被引:1,自引:0,他引:1
本文提出了一种基于粗糙集的支持向量机文本分类方法。该方法利用粗糙集的约简理论降低了支持向量的维数,同时保证了分类性能。实验表明该方法能获得较好的分类效果。 相似文献
13.
借助文本分类系统软件,采用来自10个大类的中文文本数据,按照训练集与测试集2:1的比例,使用KNN和SVM分类算法,对数据集进行自动分类的实验。旨在通过具体的语料库实验,探讨文本自动分类的关键技术,分析、比较与评价实验结果,探讨文本分类中具体参数的设置和不同分类算法之优劣。 相似文献
14.
15.
[研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。 相似文献
16.
[目的/意义]金融科技包括的技术主题及范围边界并不清晰,使得“IPC分类号+关键词”的传统专利检索和分类方法效果不佳,需要针对跨领域专利数据的分类及识别流程进行研究。[方法/过程]构建了一套结合文本挖掘、层次聚类、置信学习和自然语言处理等技术的方法流程,能够直接从专利说明书中获取分类体系并形成相应分类模型。[结果/结论 ]提出一种构建跨领域专利分类体系及自动识别方法的流程框架,形成了较为全面、客观的金融科技专利技术分类体系,以及较为准确高效的分类模型,并对国内金融科技专利的发展情况进行了分析。[创新/局限]未来可基于Bert等大规模预训练模型的Prompt Tuning方法,进一步降低人工参与成本并提升效率。 相似文献
17.
在支持向量机和遗传算法的基础上,提出一种新的启发式多层文本分类算法。实验结果证明了该算法的可行性和有效性。文本分类技术是解决大规模文本处理的有效途径。 相似文献
18.
19.
[目的/意义]在社会危机事件发生后,及时、有效地对社交网络上的文本内容进行情绪分类,有助于准确掌握公众情绪状态、优化社会危机事件管控方案。[方法/过程]基于框架语义理论构建危机情绪分类词典和危机情绪类别体系,采用融合自注意力机制的LSTM神经网络分类模型,实现优化的、细粒度的危机情绪分类。[结果/结论]以微博危机事件评论数据为例,通过不同参数的组合以及模型对比实验,获得了较高的准确率,验证了模型的可行性和有效性。为社交网络文本危机情绪分类提供优化的理论模型和方法支持,同时为相关领域的研究提供语义资源。 相似文献
20.
主要研究了文本分类精度问题。介绍了文本分类的基本过程,提出了一种改进的支持向量机文本分类技术,设计并实现了一个开放的中文文档自动分类系统。实验结果表明,提出的方法不仅具有较高的训练效率,同时也能得到很高的分类准确率和查全率。 相似文献