共查询到19条相似文献,搜索用时 731 毫秒
1.
2.
3.
基于词典约简及多分类算法的文本分类系统的设计与开发 总被引:3,自引:1,他引:2
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题. 相似文献
4.
主要讨论和阐述了四个问题:①关于分类法的本质;②关于中国分类法的源与流;③书目分类体系不等于书目分类法;④图书分类目录不等于图书分类法。 相似文献
5.
6.
基于机器学习的自动文本分类模型研究 总被引:2,自引:0,他引:2
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。 相似文献
7.
网络环境下图书分类实践的探讨 总被引:1,自引:0,他引:1
本文论述了在网络环境下图书分类的现状和使用计算机联网机读目录数据库,套录书目数据进行图书分类标引的实践中遇到的问题和积累的经验进行分析与探讨,并提出了网络环境下图书分类的举措。 相似文献
8.
9.
将人工智能研究领域中的文本自动分类技术应用于信息资源管理领域是当前的研究重点之一,而目前信息资源管理领域具有体系结构严格、类目数量巨大、类目层次众多等特点。本文充分考虑这些特点,针对《中国图书馆图书分类法》分类体系下文本自动分类研究的现状,从研究目的、类目体系、资源类型等方面,参考国外相关研究的成果和方法予以分析和评价;结合国外相关研究的最新成果,提出我国在《中国图书馆图书分类法》分类体系下应用文本自动分类技术时应注意的问题及今后的研究方向。 相似文献
10.
基于机器学习的文本自动分类研究进展 总被引:6,自引:0,他引:6
文本自动分类是目前最常用的文本信息自动处理技术,也是机器学习、自然语言处理和信息检索领域的研究热点之一。本文比较全面、深入地论述了基于机器学习的文本自动分类所涉及的相关问题及解决方法,并提出了当前该领域面临的主要研究问题。 相似文献
11.
12.
13.
平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,描述了基于译文自动评测的良好译文选择方法、基于主动学习的语料选取方法、以及翻译系统的更新迭代和评价实验。实验结果表明,本文提出的方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。 相似文献
14.
数字信息资源的自动分类和主题识别--OCLC"蝎子计划"研究 总被引:2,自引:0,他引:2
“蝎子计划(Scorpion Project)”是美国 OCLC 利用《杜威十进分类法》电子编辑支持系统(ESS)对数字信息资源进行自动分类和主题识别的一个研究项目。本文简要介绍了该项目的进展情况、实施原理,描述了 Scorpion 对数字信息资源进行自动分类和主题识别的具体流程,并将其与我们自行研发的基于《中图法》知识库的中文信息自动标引和自动分类系统进行对比分析,以探讨 Scorpion 对中文信息自动分类和主题识别的借鉴意义。 相似文献
15.
基于标引经验和机器学习相结合的多层自动分类 总被引:6,自引:0,他引:6
由于《中国图书馆分类法》类目数目庞大且各类目上文献分布不均衡,导致基于机器统计学习的自动分类技术在这种多层分类体系上力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过将两种分类技术相结合的方法对信息资源进行分类,提出了用相关度来测定关键词和类目概念之间的关联,构建关键词、分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。 相似文献
16.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。 相似文献
17.
18.
基于深度学习的中文专利自动分类方法研究 总被引:2,自引:0,他引:2
[目的/意义] 面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程] 针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论] 实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。 相似文献
19.
基于行业跨学科文献的跨学科属性及文献特征,探讨行业跨学科文献分类方法;借鉴《学科分类与代码》的学科分类体系及简明的类目结构,弥补《中国图书馆分类法》(简称《中图法》)分类与学科体系不对应、学科专业归属不明确、结构复杂的不足;以水上运输业跨学科文献资源库建设为例,采用人工直接映射方法,通过《学科分类与代码》与《中图法》的映射关联与有效融合,建立与行业跨学科体系对应的文献分类体系,设置通用、实用、简明的行业跨学科文献类目结构,为有效实现行业跨学科书目数据库协同建设、相互操作及书目数据检索共享创造条件。 相似文献