首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
[目的/意义]社交网络快速发展的时代,越来越需要自动摘要技术来解决产品评论信息过载。针对现有图模型方法在评论摘要抽取中存在信息不充分、准确性差的问题,提出一种融合主题聚类和语义图模型的多文本摘要方法。[方法/过程]首先运用FCM(Fuzzy C-means)聚类算法对评论文本进行主题划分;然后利用Word2vec模型获取分类评论句子的向量化表达,并根据句子间的语义相似度进行图模型构建;最后利用加权图排序算法,自动抽取出重要性高的句子形成文本摘要。[结果/结论]实验结果显示,该方法能有效识别出产品评论的关键内容,与传统方法相比,融合主题聚类和语义图模型的方法在信息覆盖率和信息多样性指标方面得到了更高的分数,提高了摘要抽取的质量和效率。  相似文献   

2.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。  相似文献   

3.
[目的/意义]在线问答社区成为互联网用户获取高质量知识的重要途径,探索中文问答社区答案质量对知识传播具有重要意义。[方法/过程]以规模最大的中文问答社区之一"知乎"为研究对象,采用数据挖掘和机器学习方法,选取逻辑回归、支持向量机和随机森林三种分类模型,进行三层递进式训练和检验。从结构化特征、文本特征以及用户社交属性三个维度构建答案质量的特征体系。[结果/结论]实验结果显示,随着特征体系的不断丰富,三种分类模型的性能逐步提升;而随机森林作为一种组合分类模型,在全量特征的情况下,取得出色的分类性能。对特征组合分析发现,包含用户社交属性的随机森林总是比同等级的其它模型更加出色,表明社会化网络在答案质量评价中的地位。研究结论表明从答案本身和答案编写者两个角度能够评价答案质量,构建的特征体系和模型可以较为全面地预测答案质量。  相似文献   

4.
田创  赵亚娟 《图书情报工作》2016,60(20):123-131
[目的/意义] 提出一种基于相似度的专利与产业类目映射模型,模型拥有准确、易扩展和高效率的优点,可为后续研究提供借鉴和参考。[方法/过程] 整理现有专利与产业类目映射方法,以《国际专利分类》与《国民经济行业分类》为例,设计类目映射模型并做映射实验,通过Z-score标准化方法处理余弦相似度结果,完成《国际专利分类》小类与《国民经济行业分类》小类的部分映射,并根据国家知识产权局的试用版本对照成果综合评价本模型。[结果/结论] 模型综合考虑专利官方注释规范精炼性和大量专利数据覆盖面广的优点,通过自然语言处理技术自动化得到专利与产业类目的映射组合,较现有方法在节省大量人力成本的同时保证了正确率,并可方便地进行映射类目细粒度的调整,适用于其他符合本模型数据格式要求的专利与产业分类的映射。  相似文献   

5.
[目的/意义] 从专利分类修订角度研究技术演化,为技术演化研究提供新思路。[方法/过程] 首先根据IPC分类表H部2009-2018年的修订情况,总结出新增分类、删除分类、类内转移分类、类间转移分类4种修订类型。其次针对分类修订后产生的过档文献提出基于Word2vec+TextCNN模型的过档文献再分类方法,使新旧版分类表通过再分类专利产生衔接。最后结合H部2009年-2018年被修订分类及再分类专利进行技术演化初步探索。[结果/结论] 专利再分类模型可有效解决过档文献问题,为专利再分类工作提供参考,同时可衔接新旧版专利分类表;结合IPC分类修订及再分类专利可分析分类修订中的主要技术演化方向,为技术演化研究提供新视角。  相似文献   

6.
基于深度学习的中文专利自动分类方法研究   总被引:2,自引:0,他引:2  
[目的/意义] 面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程] 针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论] 实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。  相似文献   

7.
[目的/意义]摘要作为学术论文中能够简明扼要地说明研究目的、研究方法和最终结论的陈述部分,具有较高的探究价值和意义。[方法/过程]选取长短期记忆网络(Long Short-Term Memory)、支持向量机(Support Vector Machine)、LSTM-CRF和CNN-CRF 4种模型,对3 672篇情报学领域的期刊论文进行摘要划分识别研究。[结果/结论]长短期记忆网络模型识别F值最高为69.15%,LSTM-CRF神经网络模型最高F值为88.76%,RNN-CRF模型最高F值达到89.10%,支持向量机分类器分类宏观F值最高为72.04%。该实验结果对图书情报领域的学术论文结构功能划分实验模型选取有较高的参考价值。  相似文献   

8.
[目的/意义]突发公共卫生事件中谣言的迅速传播可能会引发群体性的焦虑和恐慌,识别社交媒体中潜在的谣言传播者,研究及评估影响谣言传播者识别的重要特征,为舆情管控和网络治理提供策略。[方法/过程]提出一种突发公共卫生事件情景下多特征融合的潜在谣言传播者识别模型,首先基于BERT-BiLSTM模型提取微博的语义特征,然后与用户特征、微博特征以及情感特征进行融合,最后基于LightGBM算法构建用户分类模型,并利用SHAP值对模型进行分析。[结果/结论]研究结果表明,融合多特征的突发公共卫生事件谣言传播者识别模型在微博数据集上的准确率能够达到87.94%,说明该模型具有较好的识别效果,提出的4个维度的特征对谣言传播者识别均有贡献,其中文本语义特征对谣言传播者识别准确率的提升最高。  相似文献   

9.
[目的/意义] 旨在对大量的中文专利实现快速分类,满足专利审查以及情报分析等工作的要求。[方法/过程] 结合专利文本的固有格式以及存在多个IPC分类号的实际情况,将多示例多标签学习应用于专利自动分类中,在介绍几种经典的多示例多标签模型的基本原理之后,将这些模型运用于中文专利IPC分类号的确定。[结果/结论] 实验证明,多示例多标签模型适合运用在专利的自动分类中,并且从Average precision、Hamming Loss、Ranking Loss、One Error、Coverage、Training time等指标分析可以发现,MIMLRBF模型能快速、准确地运用在中文专利IPC分类号的确定中,为大规模专利的自动分类提供借鉴。  相似文献   

10.
本文依据KNN分类算法和反馈学习的思想,在分析中文文本分类过程的基础上,给出了基于反馈学习的中文文本分类模型和基于KNN的中文文本分类反馈学习过程。通过实验研究了反馈学习对中文文本分类模型性能的影响。结果表明,反馈学习是实时变化信息的一种有效的学习方法,它对训练不充分的文本分类器具有很大的改善作用。  相似文献   

11.
[目的/意义] 微博平台产品评论的特征级情感分析问题具有其特殊性,为了对特征分类,解决隐式特征的识别问题,并分析特征情感,提出一种基于特征本体的产品评论情感分析方法。[方法/过程] 该方法利用构建的特征本体对特征词分类,通过计算情感词与特征的搭配权重来识别隐式特征,并构建领域情感词典和微博表情符号词典,计算微博产品评论的特征情感极性和强度。[结果/结论] 构建方法模型,通过采集微博评论数据设计实验,验证了提出方法的有效性。  相似文献   

12.
[目的/意义]为缩小博物馆图像检索中的语义鸿沟现象,探究社会标签及其分类机制在博物馆资源组织中的应用价值,以期进一步推进文化遗产在博物馆中的虚拟展示并提高其资源访问率。[方法/过程]将现有的图像需求表达分类框架进行扩展,构建社会标签分类模型,搭建社会标签分类平台,研究标签分布与用户语言表达规律。[结果/结论]研究表明:用户更偏好描述图像的主题内容而非其外部特征,更习惯使用通用类型的语词来表达图像主题内容,更倾向于描述人或物的相关内容。  相似文献   

13.
[目的/意义]专利分级管理对高校盘活科研资源、提高专利质量和管理绩效、促进创新驱动发展具有重要意义。[方法/过程]在充分研究专利分类与分级管理对应关系的基础上,分析高校实现专利分级管理所面临的障碍,最后立足于高校专利现状和方案的可操作性给出解决对策。[结果/结论]专利分级管理的依据是专利市场属性的客观评估,以市场为导向的专利政策、专业的管理人员、专利申请筛选以及评估模型改进的协同耦合,可以在保证评估结果客观性的同时降低评估成本和评估的复杂性,为高校专利分级管理的实现扫清障碍。  相似文献   

14.
[目的/意义]从国内游客在线评论文本中分析挖掘出游客对目的地的潜在印象,有助于相关部门和企业了解游客的真正需求,从而科学规划目的地的发展,提升目的地的美誉度。[方法/过程]通过构建词云图进行热词分析;通过DBSCAN密度聚类、构建语义网络关系图完成特色分析;通过提出一种基于Bert的双路神经网络融合的文本情感分类模型TNNFMB(Two-way Neural Network Fusion Model Base on BERT)结合迁移学习实现情感分析,以此挖掘游客的潜在印象。[结果/结论]通过实验,总体挖掘分析出游客高度关注目的地的服务、环境、设施、性价比、位置、景点景色、景区项目,并验证了TNNFMB模型在分类准确率上比基线模型至少提升3.06%,取得了更好的分类效果。  相似文献   

15.
[目的/意义] 在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法/过程] 基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果/结论] 基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。  相似文献   

16.
[目的/意义]事件自动识别抽取是当前典籍主题挖掘研究中一个新的重要课题,其中事件触发词的识别是一项基础的工作,本研究旨在探索古代典籍中事件触发词自动识别和分类的通用方法。[方法/过程]首先运用LDA模型对动词进行主题聚类,归纳典籍事件触发动词的分类体系;并依据聚类结果与分类体系,初步构建触发动词的种子词集。在此基础上,通过语义相似度计算,对种子词集进行扩展,构建典籍事件触发词语义数据集。在实验阶段,以先秦时期的重要典籍《左传》为例,对分类体系构建和种子词集扩展的方法进行验证。[结果/结论]结果表明,本文所提出的典籍事件触发词识别方法可行有效,据此构建的事件触发词集具有较高可信度,未来可进一步扩大实验的样本数量及范围。  相似文献   

17.
[目的/意义] 针对SAO结构短文本分类时面临的语义特征短缺和领域知识不足问题,提出一种融合语义联想和BERT的SAO分类方法,以期提高短文本分类效果。[方法/过程] 以图情领域SAO短文本为数据源,首先设计了一种包含"扩展-重构-降噪"三环节的语义联想方案,即通过语义扩展和SAO重构延展SAO语义信息,通过语义降噪解决扩展后的噪声干扰问题;然后利用BERT模型对语义联想后的SAO短文本进行训练;最后在分类部分实现自动分类。[结果/结论] 在分别对比了不同联想值、学习率和分类器后,实验结果表明当联想值为10、学习率为4e-5时SAO短文本分类效果达到最优,平均F1值为0.852 2,与SVM、LSTM和单纯的BERT相比,F1值分别提高了0.103 1、0.153 8和0.140 5。  相似文献   

18.
[目的/意义]近年来,随着传统出版与数字出版的不断融合,形成了融合出版的新兴范式。如何科学准确地把握融合出版领域未来研究趋势具有重要研究意义。学术论文中描述未来研究工作的句子(简称“未来工作句”),不但可以辅助预测未来可能出现的前沿主题,还可为科研工作者、特别是初学者选题提供参考。[方法/过程]对融合出版领域论文中的未来工作句进行人工标注和类别划分,构建未来工作句识别与分类语料库。在此基础上,使用支持向量机、朴素贝叶斯和随机森林三种模型结合SelectKBest特征选择方法,来训练未来工作句自动识别模型。[结果/结论]LinearSVC在未来工作句自动识别任务中表现最为出色,其加权F1值达到92.08%。另外,本文对分类语料库中的未来工作句内容及其类别进行分析,得到融合出版领域未来工作句的类别分布及其变化规律。  相似文献   

19.
[目的/意义]当前,建立评价常态化机制已成为各级政府提高其信息服务水平的一种有效管理策略,但当今社会所呈现出的复杂性、多样性、发展性却不断对现有评价体系的应用效果产生冲击,这就迫切需要人们对评价体系的可持续性展开相关研究。[方法/过程]创建一种评价体系的可持续性模型(S-PPF模型),该模型在理论层面体现了评价指标集合的差异性、评价目标的关联性以及基于过去、现在、将来划分原则的发展性,并通过提出评价连续体概念以及相关实用性原则实现了在应用层面的可操作性。[结果/结论]研究发现,S-PPF模型能同时解决评价体系的针对性、关联性和时效性等难题,是一种有效的评价体系可持续性解决方案。  相似文献   

20.
[目的/意义] 学科主题演化研究有助于掌握学科发展现状、研究热点、研究前沿和发展趋势等情况,是进行科技创新的基础,是面向科技创新的重要研究方向。[方法/过程] 提出一种语义分类的学科主题演化分析方法:将关键词分为研究问题、研究方法和研究技术3类,构建不同语义分类的共词网络;然后基于Fast Unfolding社区发现算法识别具有语义特征的社区(主题);利用相似度算法计算相邻子时期主题间的相似度,构建学科主题演化图谱,以分析某学科领域研究问题、研究方法和研究技术的变化,实现深度、细致的学科主题演化分析。[结果/结论] 通过对2012-2015年CNKI数据库收录的我国大数据研究领域相关论文数据的处理分析,证明该方法的准确性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号