共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
为了提高海量新闻信息分类的效率,本文探索研究基于Transformer(转换器)模型和《中文新闻信息分类与代码》标准的自动分类标引,包括自动归类、聚类、检索标志的智能抽取,以及人工标引和自动标引的互相结合。Transformer模型训练数据特征效率更高,适应能力更强。基于标准的自动分类表更灵活,更高效,自动标引具有广泛的应用前景。 相似文献
3.
中文农业科技文献自动标引系统SDIC/CASDAIS 总被引:1,自引:0,他引:1
本文介绍了一个中文农业文献自动标引系统SDIC/CASDAIS,它集自动主题标引与自动分类标引于一体,采用主题词表、预匹配词表和停用词表相结合的词典法方案,匹配中采取正向增字跳字最长匹配的算法,末二字回溯,制订大量规则以降低错标。该系统可完成主题标引和分类标引,能处理农业文献中常见的缩略语和科技术语不规范现象,具备动态构词功能。SDIC/CASDAIS系统采用特征词析取方法处理不包含在词表中的品种、物质名称和地名等关键词,其自由词判定规则还可以判别标题的部分自由词,通过词频统计可作为更新词表的依据。SDIC/CASDAIS系统的标引速度为3000条标题/小时,平均标引深度略大于4,主题标引精度98%,分类标引基本吻合率80%。 相似文献
4.
国内中文自动分词技术研究综述 总被引:22,自引:0,他引:22
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点. 相似文献
5.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
6.
汉语文本特征词的抽取方法 总被引:13,自引:3,他引:10
本文从自动文摘的需求出发 ,探讨特征词自动抽取的方法和技术 ,设计并实现了两种不同的特征词自动抽取算法。这些方法对文本的自动分类和全文检索也有一定的借鉴意义。 相似文献
7.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。 相似文献
8.
9.
10.
11.
认为中文文献数据库中存在大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些标引记录信息进行聚合处理,可以实现计算机自动编制分类主题词表。比较两种分类主题词表的编制模式,讨论机编分类主题词表的优势,针对机编分类主题词表已有的成果——知识库的不足之处提出改进方案。改进方案在小规模测试集中取得了良好的效果。最后分析将机编分类主题词表技术应用于新一代《中国分类主题词表》升级改造的良好前景。 相似文献
12.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。 相似文献
13.
14.
15.
[目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。 相似文献
16.
17.
基于语料和基于标引经验的自动分类模式比较 总被引:1,自引:0,他引:1
以传统文献分类体系为框架,构建知识库或分类器来实现信息的自动分类是信息加工自动化的一个发展方向。这种自动分类系统一般有两种模式:基于训练语料和基于人工标引经验。我实验室分别在这两种模式的基础上设计开发了两个不同的自动分类系统。本文将详细介绍这两个自动分类系统的结构、设计及其构建,然后分别从原理、知识库构建、分类算法等方面对这两者进行比较分析。 相似文献
18.
《中文新闻信息分类》标准经过历时一年8个月的研制及反复检测论证,在2005年9月2日专家评审会上,标准审查委员会一致通过对《中文新闻信息分类》国家标准(送审稿)的审查,建议标准起草组尽快形成报批稿,上报国家标准化管理委员会作为推荐性国家标准发布实施。作为我国第一部即将上报的新闻信息分类标准,《中文新闻信息分类》标准的研制工作取得了初步的成果,但能否在业界真正实现应用,达到整合全球中文新闻信息的目的,最为关键的是下一步技术支撑的构建。因此,只有建立自动标引系统,实现自动分类,《中文新闻信息分类》标准的现实价值才能真正体现。本文提出了实现自动标引的整体构想,希望为《中文新闻信息分类》标准下一步的研究与实际应用有所贡献。 相似文献
19.
本文对比主题词自动标引分析了档案分类自动标引的主要难点问题 ,着重讨论了解决档案分类计算机自动标引程序设计中的档案分类词组动态拆分先组匹配、档案分类单元概念共性复分链接和隐性并列多主题概念自动分类标引这3项编程技术的基本设计思路。 相似文献
20.
新中国成立以来,我国的文献标引经历了从分类标引、主题标引到多元化标引的过程,标引方法愈加丰富,标引技术不断进步,逐步由人工标引、机器辅助标引过渡到自动标引,进一步向智能标引方向发展。虽然国内针对文献标引及相关技术的研究较为丰富,但是对文献标引的综述性研究却相对薄弱,无法有效地呈现在现代信息技术驱动下,文献标引领域的发展态势和应用前景。本文在已有研究的基础上,对我国文献标引研究趋势进行分析,提出我国文献标引研究主要呈现两个阶段的发展态势:一是21世纪之前的以传统标引为主体的发展阶段;二是21世纪之后的以自动标引为主体的发展阶段。人工及机器辅助等以传统标引为主体的研究,为自动标引的发展奠定了良好基础,促使自动标引在标引技术、标引系统和标引方法等方面都取得了较为显著的发展,文献标引的应用领域得到更为深入的拓展。但是,文献标引研究更多是在人工智能领域和语言学领域,势必需要图情领域充分发挥自身在文献标引领域研究的理论和实践的优势,再结合其他学科的研究成果,从而使图书馆学传统的文献标引技术符合时代的发展,并产生溢出效应,和其他学科共同发展。 相似文献