首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 874 毫秒
1.
范昊  何灏 《情报科学》2022,40(6):90-97
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新 闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类 别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的 融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确 率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】 本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多 向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。  相似文献   

2.
李海蓉 《情报科学》2012,(6):852-857
简要介绍语义模板的概念,提出基于语义模板向量空间的文档自动分类模型。利用支持向量机(SVM,Support Vector Machine)分类算法对文档测试集进行基于语义模板空间、词向量空间的分类实验,实验结果表明,基于语义模板空间的文本分类性能比基于词向量空间的分类性能要高。  相似文献   

3.
文本自动分类是文本信息处理中的一项基础性工作。将范例推理应用于文本分类中,并利用词语间的词共现信息从文本中抽取主题词和频繁词共现项目集,以及借助聚类算法对范例库进行索引,实现了基于范例推理的文本自动分类系统。实验表明,与基于TFIDF的文本表示方法和最近邻分类算法相比,基于词共现信息的文本表示方法和范例库的聚类索引能有效地改善分类的准确性和效率,从而拓宽了范例推理的应用领域。  相似文献   

4.
提出一种基于向量空间模型的科技文献自动分类方法.首先构建分类代表文本,计算单文本与分类代表文本之间的相似度;然后利用训练集计算出分类归属度,以判断某一文本分类的可能性,实现科技文献的自动分类.以3个学科的文献为例,验证该方法的可用性.  相似文献   

5.
马思丹  刘东苏 《情报科学》2019,37(11):38-42
【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的 分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非 重叠部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行 分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模 型的分类效果有所提升,是一种有效的文本分类方法。  相似文献   

6.
高晓琴 《科技通报》2012,28(4):70-71
主要研究了文本分类精度问题。介绍了文本分类的基本过程,提出了一种改进的支持向量机文本分类技术,设计并实现了一个开放的中文文档自动分类系统。实验结果表明,提出的方法不仅具有较高的训练效率,同时也能得到很高的分类准确率和查全率。  相似文献   

7.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

8.
张冰波 《大众科技》2010,(10):43-45
为了能在海量的文本中及时准确地获得有效的知识和信息,文章表示技术以及文本自动分类技术受到了广泛的关注。文章介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,介绍了常用的文本分类算法,由于传统类中心分类算法训练文档分散,不能准确的表示各类别的中心向量,提出了优化算法,从而提高了分类准确度。  相似文献   

9.
移动计算由最初简单的单一实体计算逐步发展到网络协同计算,而最新的发展方向则是可以对环境自适应的智能感知计算。从上下文感知的角度研究了移动计算的基本方法,并通过近似选择、语境自动重构、语境信息和命令以及上下文触发动作对基于上下文感知的移动计算进行了结构建模和运行仿真,从而形成了较为完善的智能移动计算结构。  相似文献   

10.
毛雪岷  丁友明 《情报杂志》2007,26(11):56-58
文本分类是中文信息处理的热点研究内容,而语义是文本类别归属的依据。提出一种基于语义引导的特征选择方法,在特征选择的同时,对典型类别区分词进行加权,提高该类词在分类中的作用;采用支持向量机技术进行试验,实验表明建立语义知识库的特征选择改善了文本的分类性能。  相似文献   

11.
在文本检索过程中充分利用词语之间的上下文关系有助于提高检索性能.首先对已有的相关工作进行综述;然后针对已有研究对词语上下文关系应用不足的现状,提出一种基于词语上下文关系的文本检索算法;最后通过实验对该算法进行验证.  相似文献   

12.
Automatic text classification is the task of organizing documents into pre-determined classes, generally using machine learning algorithms. Generally speaking, it is one of the most important methods to organize and make use of the gigantic amounts of information that exist in unstructured textual format. Text classification is a widely studied research area of language processing and text mining. In traditional text classification, a document is represented as a bag of words where the words in other words terms are cut from their finer context i.e. their location in a sentence or in a document. Only the broader context of document is used with some type of term frequency information in the vector space. Consequently, semantics of words that can be inferred from the finer context of its location in a sentence and its relations with neighboring words are usually ignored. However, meaning of words, semantic connections between words, documents and even classes are obviously important since methods that capture semantics generally reach better classification performances. Several surveys have been published to analyze diverse approaches for the traditional text classification methods. Most of these surveys cover application of different semantic term relatedness methods in text classification up to a certain degree. However, they do not specifically target semantic text classification algorithms and their advantages over the traditional text classification. In order to fill this gap, we undertake a comprehensive discussion of semantic text classification vs. traditional text classification. This survey explores the past and recent advancements in semantic text classification and attempts to organize existing approaches under five fundamental categories; domain knowledge-based approaches, corpus-based approaches, deep learning based approaches, word/character sequence enhanced approaches and linguistic enriched approaches. Furthermore, this survey highlights the advantages of semantic text classification algorithms over the traditional text classification algorithms.  相似文献   

13.
韩雪  张爽 《科教文汇》2011,(25):124-125
语言学各个领域的研究几乎都涉及对语境的研究和应用,如何系统地划分构成语境的要素是语境研究中的关键问题,但是由于语境本身的复杂性、抽象性和隐匿性,对语境构成因素进行科学的分类变得异常艰难。本文试图从微观角度探索语境构成的各个要素,对以往的研究成果进行了简要的回顾和梳理,并指出了语境研究的转向和发展趋势。  相似文献   

14.
借助文本分类系统软件,采用来自10个大类的中文文本数据,按照训练集与测试集2:1的比例,使用KNN和SVM分类算法,对数据集进行自动分类的实验。旨在通过具体的语料库实验,探讨文本自动分类的关键技术,分析、比较与评价实验结果,探讨文本分类中具体参数的设置和不同分类算法之优劣。  相似文献   

15.
在介绍文本分类技术的基础上,结合学科导航特点,探讨了将文本分类技术应用于学科导航的必要条件,分析了应用文本分类技术后给学科导航带来的影响,通过实证显示了文本分类技术应用于学科导航分类所产生的优势.  相似文献   

16.
【目的/意义】政府机构的数据规模在数字时代得到了空前的增长,这也为多类目政务数据的自动化处理工 作带来了挑战。在此背景下,本文通过引入多层次文本分类方法,对进出口商品的自动归类问题进行了探索。【方 法/过程】基于HS编码的层次结构,构建了一个包含三个层次的分类模型,通过逐层判别进而累加的方式进行文本 分类;同时,对SVM与TextRNN等算法的分类效果进行了对比。【结果/结论】多层次分类模型对于解决商品归类问 题的总体效果较好;在数据充分的情况下,TextRNN 比 SVM 的效果相对较好(第 1 层 93.00%>92.90%,第 2 层 96.46%>96.38%),而在学习不充分的环境下,SVM具有较大优势(第3层92.49%<95.92%);SVM取得了85.88%的最 佳叠加正确率。【创新/局限】本研究尝试基于多层次分类方法解决商品自动归类问题,但数据规模及应用场景仍有 待拓展。  相似文献   

17.
科学是人类社会的产物。反过来 ,是社会造就了科学。本文运用语境分析方法 ,将科学当作一个“文本” ,放到它赖以生长和存在的社会“语境”中去考察 ,提出了“社会语境”的概念。这样 ,科学与社会的关系就是文本与其语境的关系。在此基础上 ,着重对“社会语境”的涵义、结构、性质和功能做了进一步的探究。  相似文献   

18.
针对专利技术主题识别方法存在缺少语义语境、可解释性弱和主题界定模糊等问题,提出了一种融合专利结构数据和文本语义的技术主题识别分析方法一并解决上述问题,有助于领域人员把握技术研究内容,为研发决策提供科学支持。方法以专利IPC作为结构数据改进纯文本主题建模获取由IPC和专家分类意见指导的主题词向量,同时使用word2vec获取语义词向量,将结果进行向量拼接,进而获得易于解释的精准技术主题,满足细粒度分析要求。最后,以非小细胞肺癌治疗领域作为实证研究,证实了该方法的科学性和实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号