共查询到19条相似文献,搜索用时 93 毫秒
1.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。 相似文献
2.
全二分快速自动分词算法构建 总被引:1,自引:0,他引:1
张海营 《现代图书情报技术》2007,2(4):52-55
分析现有分词算法存在的不足,在此基础上提出一种新的分词词典,通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词,其时间复杂度实现了大的改善。 相似文献
3.
4.
基于词首最长匹配的词典分词和段句分割符表的切分标记分词,构建用于档案信息集成与检索的知识标引环境,然后运用ASPNET分布式技术,研究和开发一个基于知识标引的异构档案数据整合与信息检索系统。 相似文献
5.
基于两字词簇的汉语快速自动分词算法 总被引:10,自引:1,他引:9
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现 相似文献
6.
基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验 总被引:9,自引:0,他引:9
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。 相似文献
7.
8.
本文提出了用机器辅助受控联机标引的方案,采用了由受控词与部分关键词构成的混合型系统词库的动态生成技术。在汉字分词技术与智能型全自动标引尚未成熟的情况下,实为一种提高标引工作效率、加快自建库速度的实用的好方法。 相似文献
9.
国内中文自动分词技术研究综述 总被引:22,自引:0,他引:22
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点. 相似文献
10.
基于既定词表的自适应汉语分词技术研究 总被引:3,自引:0,他引:3
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。 相似文献
11.
12.
标引人员的智慧与文献标引的质量密切相关。提高标引人员的素养很重要。标引人员需要在标引实践中磨练。自动标引研究已有半个世纪,其标引质量至今未能超过人工标引而取代人工标引,究其原因在于计算机不具备优秀标引人员的智慧,不适应近乎艺术创造的标引作业。可以揣测,没有标引人员介入的、高度自动化的文献标引处理的实现,至少还要等待一个相当长的时间。人工标引研究的成果将有助于自动标引研究中一些难题的解决。不可轻视人工标引的研究。 相似文献
13.
赵宗仁 《现代图书情报技术》1993,9(1):12-15
本文主要介绍利用微机通用管理系统ISIS的PASCAL语言开发的并集成于该系统的“汉语科技文献自动标引系统CADAIS”的系统构成,功能,自动标引原理,词典结构与建立方法,标引算法和实验情况等。 相似文献
14.
15.
16.
基于集成学习的自动标引方法研究 总被引:1,自引:0,他引:1
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果. 相似文献
17.
18.
自动标引研究的回顾与展望* 总被引:3,自引:0,他引:3
章成志 《现代图书情报技术》2007,2(11):33-39
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。 相似文献