首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于EMM中文抽词算法的XMARC主题信息挖掘
引用本文:王兰成.基于EMM中文抽词算法的XMARC主题信息挖掘[J].情报学报,2005,24(1):82-86.
作者姓名:王兰成
作者单位:南京政治学院上海分院信息管理系,上海,200433
摘    要:本文在分词词典上采用区间最大词长,改进正向减字最大匹配法为“词首 长词匹配 短词推进”自动标引方法,从而有效地减少领域的分词歧义性和缩短标引时间。最后将该研究付诸于XMARC主题信息的挖掘与检索的实现,并证明其在时间和质量综合性能上的优越性。

关 键 词:XMARC  主题信息  中文抽词  自动标引
修稿时间:2004年4月15日

Theme Information Extraction of XMARC Based on Extended Maximum Matching Algorithm
Wang Lancheng.Theme Information Extraction of XMARC Based on Extended Maximum Matching Algorithm[J].Journal of the China Society for Scientific andTechnical Information,2005,24(1):82-86.
Authors:Wang Lancheng
Abstract:The data extraction technology of theme automatic indexing has been got the solicitude of people always in long time. The ambiguity of automatic indexing has been decreased for special stop words to be got pretreatment. The time of automatic matching has been shortened by shortest word pushing method. So Maximum Matching (MM) algorithm of automatic indexing has been improved in specific application field. They are used in XMARC text automatic indexing.
Keywords:XMARC  theme information  data extraction  automatic indexing  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号