首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
基于《金融档案分类表》的自动分类算法研究   总被引:8,自引:1,他引:7  
本文介绍基于《中国档案分类法金融档案分类表》(以下简称《金融档案分类表》)的中文文本自动分类算法。提出了类别词概念,介绍了类别词库和分类规则词库建造法以及自动分类的三维加权算法等内容。经过对真实金融档案文本测试,自动分类正确率可达81%以上。  相似文献   

2.
基于机器学习的中文书目自动分类研究   总被引:2,自引:1,他引:1  
面对与日俱增的图书出版量,图书馆编目人员的手工书目分类显得力不从心,如何实现由计算机自动完成图书分类成为数字图书馆建设中亟待解决的关键问题之一。本文尝试将BP神经网络和支持向量机等机器学习算法引入到书目分类中,建立了面向中图法的基于机器学习的书目层次分类系统模型,提出了采用特征加权方式描述书目和浅层次分类体系构建的设计思路,并通过大规模实验验证了该模型的可行性和合理性,基本上解决了没有主题标注情况下书目的自动分类问题。图9。表5。参考文献14。  相似文献   

3.
自动分类技术研究   总被引:1,自引:0,他引:1  
以网络环境下网络信息资源的分类体系作为研究对象,分析了自动分类的类型和程序,比较分析了档自动分类的向量模型。  相似文献   

4.
基于层次分类体系的知识地图自动构建方法研究   总被引:1,自引:0,他引:1  
知识地图是组织实施知识管理的有效工具.随着组织中知识资源存储量的日益增加,手工编制知识地图的方式显得非常低效,甚至难以完成.针对组织中以文本形式大量存在的显性知识,提出了一种基于层次分类体系的知识地图结构,并提出了一个以层次分类方法为核心的知识地图自动生成方法,用来自动构建符合组织需求的知识地图.最后通过实验验证了该层次分类方法的有效性,并给出结论.  相似文献   

5.
网络信息的自动分类问题   总被引:9,自引:0,他引:9  
陈树年 《图书馆杂志》2001,20(10):2-6,63
简要分析了网络信息与传统文献差异,探讨了网络分类导航系统的自动分类程度,网站信息的分析和提取,分类知识库的构造等问题。  相似文献   

6.
计算机编目过程中的分类标引误差分析及对策   总被引:1,自引:1,他引:0  
实行计算机编目后,由客观原因产生的分类误差与手工编目条件下是一样的,而由主观原因造成的分类误差就有所不同了,分析探讨了计算机编目过程中由太观原因所产生的分类标引误差,并提出了相应对策。  相似文献   

7.
基于字频向量的中文文本自动分类系统   总被引:15,自引:3,他引:12  
王梦云  曹素青 《情报学报》2000,19(6):644-649
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字一类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

8.
王涛 《图书馆学研究》2007,(12):40-43,46
本文简要介绍了国内外文本自动分类的发展概况,论述了自动分类的定义,自动归类和自动聚类的几种常见方法,并对应用实例进行了分析。  相似文献   

9.
为了提高海量新闻信息分类的效率,本文探索研究基于Transformer(转换器)模型和《中文新闻信息分类与代码》标准的自动分类标引,包括自动归类、聚类、检索标志的智能抽取,以及人工标引和自动标引的互相结合。Transformer模型训练数据特征效率更高,适应能力更强。基于标准的自动分类表更灵活,更高效,自动标引具有广泛的应用前景。  相似文献   

10.
简单介绍了文本分类的定义及应用,针对文本信息自动分类的研究动态,分析了当前我国文本信息自动分类研究中存在的问题,提出进一步完善文本自动分类的建议和方法。  相似文献   

11.
《中文新闻信息分类》标准经过历时一年8个月的研制及反复检测论证,在2005年9月2日专家评审会上,标准审查委员会一致通过对《中文新闻信息分类》国家标准(送审稿)的审查,建议标准起草组尽快形成报批稿,上报国家标准化管理委员会作为推荐性国家标准发布实施。作为我国第一部即将上报的新闻信息分类标准,《中文新闻信息分类》标准的研制工作取得了初步的成果,但能否在业界真正实现应用,达到整合全球中文新闻信息的目的,最为关键的是下一步技术支撑的构建。因此,只有建立自动标引系统,实现自动分类,《中文新闻信息分类》标准的现实价值才能真正体现。本文提出了实现自动标引的整体构想,希望为《中文新闻信息分类》标准下一步的研究与实际应用有所贡献。  相似文献   

12.
自动分类研究进展   总被引:10,自引:0,他引:10  
在对自动分类研究状况进行概述和分析的基础上, 指出了自动分类研究的主要发展方向。  相似文献   

13.
基于统计的自动分类是网页层次分类中常用的技术,但其有不足之处,主要表现为当子类之间出现严重的特征交叉现象时,分类精确率将大大下降。而网页层次分类的本质决定了同一大类下的子类存在许多相同的特征。针对这一局限性,结合基于规则的自动分类技术的优点,提出一种基于统计-规则方法的网页层次分类技术。实验表明,基于统计-规则方法的网页层次分类技术能够获得比较理想的分类效果。  相似文献   

14.
基于词典约简及多分类算法的文本分类系统的设计与开发   总被引:3,自引:1,他引:2  
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题.  相似文献   

15.
Web自动文本分类技术研究综述   总被引:1,自引:0,他引:1  
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势.  相似文献   

16.
【目的】通过构建个性化分类体系,研究面向TRIZ应用的专利自动分类方法。【方法】基于主题模型,从宏观、中观、微观三个层面构建面向TRIZ个性化分类体系;通过对不同分类特征项与算法进行组合,挑选分类准确率最高的组合构建初始分类器;采用平滑非平衡数据与特征项降维方式对分类器进行优化,完成对专利的自动分类。【结果】实现半自动构建面向TRIZ的个性化分类体系及基于该分类体系的专利自动分类。在中等数据量级场景下(千条),实现专利自动分类,分类效果综合评价指标高达90.2%。【局限】该方法不适用于数据量较小(百条)时的专利分类;在较大数据量(万条)场景下,该方法的有效性尚未得到验证。【结论】对中等规模专利数据,能快速构建面向TRIZ的分类体系,并实现自动分类。  相似文献   

17.
自动分类研究现状与展望   总被引:10,自引:1,他引:9  
自动分类包括自动聚类、自动归类及类号间的自动转换三个方面。自动聚类由于其复杂性,实际使用尚少。本文在回顾我国自动分类的历史和现状的基础上,分析了我国自动分类研究存在的不足,指出基于自然语言理解的分类专家系统是自动分类研究的发展方向。  相似文献   

18.
虚拟图书馆中网页的自动分类研究   总被引:1,自引:0,他引:1  
概括了国内外对电子文本及Web网页进行自动分类的研究和试验,论述了虚拟图书馆中对网页进行自动分类与一般搜索引擎中对网页进行自动分类的区别,提出了一种用于虚拟图书馆中对网页进行自动分类的方法,并描述了按照此方法建立的“图书馆学情报学”虚拟图书馆的自动分类系统,对分类结果进行了分析。  相似文献   

19.
图书自动分类专家系统技术实现初探   总被引:3,自引:0,他引:3  
介绍把人工智能的专家系统引入到图书分类中来进行尝试的产物《图书自动分类专家系统》,以及该系统的技术实现。  相似文献   

20.
一个中文文本自动分类数学模型   总被引:9,自引:1,他引:8  
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号