首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 484 毫秒
1.
基于《金融档案分类表》的自动分类算法研究   总被引:8,自引:1,他引:7  
本文介绍基于《中国档案分类法金融档案分类表》(以下简称《金融档案分类表》)的中文文本自动分类算法。提出了类别词概念,介绍了类别词库和分类规则词库建造法以及自动分类的三维加权算法等内容。经过对真实金融档案文本测试,自动分类正确率可达81%以上。  相似文献   

2.
文书类档案的分类标引研究   总被引:7,自引:0,他引:7  
本文介绍了一种档案文献的计算机分类标引算法。该算法以主题词作为分类的依据,对不能直接映射归类的档案,统计文献主题词隶属于各个类的隶属度,利用模糊关系对档案进行分类标引,为了提高分类效率,使分类系统具有实用性,提出了几种措施。  相似文献   

3.
基于样本加权的文本聚类算法研究   总被引:3,自引:0,他引:3  
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果.  相似文献   

4.
机关档案实体分类方法,最常用的是年度———组织机构分类法和年度———问题分类法。我认为,中专档案实体分类如果单纯采取上述两种方法中的一种,都是不够全面的。比较妥当的办法应是两者的结合,也就是有的人所称的历史方法和逻辑方法的结合,是两种的辩证统一。笔者从实践中不断摸索,采用了年度之下以问题分类为主、问题与机构相结合的分类方法,避免了单纯采用组织机构分类法或问题分类法的缺陷与局限,实践证明是简便可行而较为实用的档案实体分类方法。按这种分类法可将一个档案全宗分为如下14类:党务类;校务类;工会团委类;…  相似文献   

5.
基于机器学习的自动文本分类模型研究   总被引:2,自引:0,他引:2  
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。  相似文献   

6.
潘姝 《兰台世界》2007,(10S):30-30
干部人事档案材料的归类是干部人事档案整理过程中的—个重要环节。材料归类不准确必然造成查找麻烦。在中央组织部颁发的《干部档案工作条例》及《干部档案整理工作细则》中已睨确规定了干部档案正本材料分为十类,并对档案材料的分类作出了具体说明,这些都是档案材料分类的依据,我们在整理干部人事档案时,必须严格按照条例中所规定的类别,对材料进行分类。但在实际工作中,笔者对几份材料的归类有不同的看法;[第一段]  相似文献   

7.
提出了一种基于预抽取支持向量机及模糊循环迭代算法的改进的支持向量机(Support Vector Machines,SVM)的两类文本分类方法, 与传统的SVM相比, 该方法具有高得多的计算效率。文中给出了具体算法并将其用于文本分类中,实验表明了本算法用于文本分类的有效性及其高效率。  相似文献   

8.
企业档案的实体分类,是实现企业档案整体化科学管理的关键。采用正确的分类方法,合理地设置企业档案的类目,是制订通用的企业档案分类大纲(即企业档案的专业标准,下同)和编制实用的企业档案分类表(即一个具体企业的档案分类方案,下同)的一个重要问题。本文将就此作些探讨。 一 类代表一组在性质上彼此相同(或相似)的事物,类是一个概念。类在文献分类中又称为类目。企业档案的一个类目,是一组在某种性质上彼此相同(或相似),具有有机联系的档案。企业档案的一级类目(也称大类)设置,就是选用恰当的分类方法,对企业档案进行最概括、最本质的区分。企业档案的大类,对进一步划分企业档案,形成企业档案的分类体系至关重要,是制订企业档案分类表的基础。通过企业档案大类的设置,应当在这一层次上,使企业档案分类大纲和企业档案分类表,  相似文献   

9.
建立企业信用档案的几个问题   总被引:3,自引:1,他引:2  
1企业信用档案的分类 企业信用档案有两种分类的方法,企业可任取一种.第一种方法,单独设类.按照<工业企业档案分类试行规则>,企业档案设置10个大类,即党群工作类、行政管理类、经营管理类、生产技术管理类等10个一级类目.  相似文献   

10.
档案的管理者和利用者对档案分类的认识是不相同的。就是这种“类”的概念以及档案利用者对《中华人民共和国档案法》(以下简称《档案法》)规定“类”的理解,还引起了官司。这起官司发生在江苏省某市,利用者一方与当地的档案局馆关于档案的分类有很对立的冲突。这起案件的情况是在国家档案局2001年8月召开的“全国档案行政执法案例研讨暨经验交流会”上公开的。它涉及馆藏档案分类的部分是:2000年11月6日,陈某某第三次来到档案馆,向查档接待人员说道:我已经研究过《档案法》了,我要查的文件属于经济类档案,按《档案法…  相似文献   

11.
类是“许多相似或相同的事物的综合”。分类,就是依据一定特征(标准)将分类对象划分为若干类的过程。分类是人们认识客观事物的一种逻辑方法。科技档案分类包括两种含义:其一是科技档案的实体分类;其二是科技档案的信息分类。所谓科技档案实体分类是指以科技档案客体本身为对象,以揭示科技档案自然形成的内在有机联系,从而便于库藏科技档案的排架与管理为主要目标的分类。所谓科  相似文献   

12.
编制科技档案的分类方案有以下几个步骤:一、根据科技档案种类和内容,将科技档案划分为若干类,有多少种科技档案就设多少类。如:设备档案、基建档案、产品档案、科研档案等类。二、根据每一类科技档案的内容构成和形成特点。选定适用的分类方法,在每一类中进  相似文献   

13.
陈国琛先生作为民国时期重要的文书档案专家,提出了诸多行之有效的文书档案改革方案。在文书档案改革中,陈国琛先生十分重视档案的分类问题,他提出了档案分类的标准、程序、分类人员的选拔、分工的标准与分类权限的确定等档案分类思想,并明确提出档案分类与图书分类的不同,不可张冠李戴的观点。此外,他还富有建设性地构建了全国省、区、县、市政府通用档案分类表,即“陈国琛档案分类表”。陈国琛先生的档案分类思想在一定程度上推动了我国档案学分类理论和实践的发展,其档案分类思想不仅对当时行政机关档案管理工作有重大影响,同时对现行档案分类体系的构建也有重要的参考价值和启示意义。  相似文献   

14.
基于粗糙集加权的文本分类方法研究   总被引:6,自引:0,他引:6  
文本自动分类是当前智能信息处理中一类重要的研究课题。本文分析了基于统计理论的文本分类的基本特点,提出采用可变精度粗糙集模型中的分类质量构造新的特征词权重计算公式。这种新的加权方法,相对于广泛使用的逆文本频率加权方法,大大改进了文本样本在整个空间中的分布,使得类内距离减少,类间距离增大,在理论上将提高样本的可分性。最后利用支持向量机和K近邻两种分类器,验证了这种新的加权方法对分类效果确实有所提高。  相似文献   

15.
为了建立一套系统的城建档案分类编目、检索方法,建设部于1993年制定了《城市建设档案分类大纲》,大纲的出台使城建档案工作更加标准化、规范化。大纲中明确规定的18个大类构成了档案的组成和结构,其中属于准工程型档案的就有E类(市政工程)、F类(公用设施)、G类(交通运输)、H类(工业建筑)、I类(民用建筑)、N类(人防、军事)、Q类(地下管线)等七类;属于准管理型档案有A类(综合类)、D类(城市建设管理)、K类(环境保护)、L类  相似文献   

16.
数据挖掘中分类方法综述   总被引:3,自引:0,他引:3  
数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类 算法大体可分为传统分类算法和基于软计算的分类法两类,主要包括相似函数、关联规 则分类算法、K近邻分类算法、决策树分类算法、贝叶斯分类算法和基于模糊逻辑、遗传 算法、粗糙集和神经网络的分类算法。通过论述以上算法优缺点和应用范围,研究者对 已有算法的改进有所了解,以便在应用中选择相应的分类算法。  相似文献   

17.
从1988年开始,一些档案馆陆续依据(中国档案分类法)对馆藏档案进行了分类标引。通过十年探索,这项工作取得了很大成绩。在肯定成绩的同时,我们也应清醒地看到档案分类标引工作还存在一些不足,比较明显的是标引不一致现象比较突出,且没有受到应有重视。所谓标引不一致,是指同一主题内容的档案被标引人员赋予不同的类号。分类标引不一致现象,按不同标准划分,其表现形式也各不相同。从分类标引过程看,有主题分析不一致和给号不一致两种。主题分析取决于标引方式,方式不同,分析出的主题必然有别。档案分类标引有四种方式,即整体标…  相似文献   

18.
【目的】分析典籍英译作者身份识别的关键问题,提出不完整数据作者身份识别的有效方法。【方法】针对诗词典籍篇幅短小和语料不平衡的特点,建立基于词汇、句子和语篇层面的文体特征向量空间模型,提出用于不完整数据作者身份识别的加权朴素信念分类算法。【结果】加权朴素信念分类算法可以有效改善朴素信念分类算法性能,与目前主流分类算法对比实验表明其在不完整数据集上具有很好的综合性能。【局限】需进一步扩展数据集的样本数量和作者数量,在大数据集上提高文体特征提取效率和作者身份识别的准确性。【结论】提出的多层面文体特征模型和加权朴素信念分类算法在诗词典籍英译作品集上具有较好的准确性和应用性。  相似文献   

19.
多类多标签汉语文本自动分类的研究   总被引:9,自引:0,他引:9  
本文提出了一种高效的汉语文本分类方法 ,并在实验中收到了良好的效果。由于汉语文本的特殊性 ,在训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类 ,分类算法采用改进的Boosting算法。实验表明 ,在多类多标签的汉语文本特征提取和文档分类中 ,该算法收敛快、准确性高、综合效果较好  相似文献   

20.
文本特征降维对文本分类的精确性有着非常重要的影响.本文针对传统的TF-IDF没有考虑特征项的类间分布状况以及对类属低频词的抑制现象、MI在训练样本类别分布偏斜条件下的不足问题分别进行了改进,进而提出了一种基于类别的组合型文本特征选择算法.随后的文本分类试验表明,本文提出的加权模型相比较于传统的TF-IDF以及MI方法可以有效提高文本分类的精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号