首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
中文网页标引源主题表达能力的调查统计   总被引:22,自引:1,他引:21  
通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,以便为自动标引及人工智能搜索引擎的研制提供数据。  相似文献   

2.
中文期刊论文自动标引加权设计研究   总被引:7,自引:0,他引:7  
本次调查,通过对随机采集的1000篇涉及到图书情报、农业经济、环境、工业企业管理这四个学科的中文期刊论文进行人工自由标引、人工打分测评和词频统计,并进行统计数据的分析,旨在得出中文期刊论文内容主题与文章题名、文摘、关键词、首段、第二段、倒数第二段、尾段、以及参考文献等8个标引信息源之间的关系,分析测评期刊论文不同部位的主题表达能力,并为之设计自动标引时加权抽词标引的适当权值。以便为中文期刊论文自动标引提供参考数据。  相似文献   

3.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

4.
中文全文标引的主题词标引和主题概念标引方法1   总被引:20,自引:3,他引:17  
韩客松  王永成 《情报学报》2001,20(2):212-216
中文全文标引正在越来越受到重视。本文主要研究了三个方面的问题,首先是全文主题词标引的加权问题,综合考虑了五个方面的因素;其次是介绍了一种用层次概念词典改进主题词标引质量的新方法;最后又提出了用三种不同的方法产生主题概念进行全文标引的的主题概念标引。受限范围内的实验结果显示本文的方法有一定的理论和实用价值。  相似文献   

5.
网络信息标引自动化的设想   总被引:2,自引:0,他引:2  
石颖 《图书馆学刊》2004,26(1):48-48,51
标引是使网上信息有序化,方便用户检索的关键步骤。由于网上信息数量大,范围广,类型复杂。动态性强,仅靠人工标引远远不够。根据中文的特点,标引语言可采用关键词——叙词——类名一体化方案。实现这一方案的重点是解决关键词的切分,以及关键词——叙词——类名的转换和主题概念的分析与提炼等问题。  相似文献   

6.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

7.
本研究设计了一种基于统计、语言特征和主题词影响力的综合加权评估的舆情主题标引方案及其关键算法,并通过四个实验较为全面地分析该方案的标引效果和优缺点。  相似文献   

8.
经济期刊论文的分类标引   总被引:2,自引:0,他引:2  
思维 《图书馆论坛》2003,23(4):98-100
对经济期刊论文进行分类标引。其根据是《中国图书馆分类法》(第4版)。经济期刊论文分类标引要在充分认识其特殊性的基础之上。坚持充分标引、归类恰切、标引适度三个原则。标引工作应按分析主题、判断类别、标引类号三个步骤进行。在处理交替类目、类号组配和交叉学科等问题上。要坚持全部标引、多重式反映。提供尽可能多的检索途径.充分揭示文献蕴含的全部主题。  相似文献   

9.
基于分类标注语料库的关键词标引知识自动获取   总被引:1,自引:0,他引:1  
基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。  相似文献   

10.
本研究以逸仙时空BBS为舆情信息源,对需要关注的帖子进行情感倾向性分析的探索性研究,设计了主题帖自动标引和情感倾向性分析策略,并对主题帖自动标引结果、倾向性人工判断与自动分析的结果进行对比。  相似文献   

11.
康艳  张虹  侯汉清 《图书情报工作》2007,51(10):139-142
随着网络信息技术的发展和搜索引擎的兴起,传统情报检索语言在网络环境下存在的必要性受到质疑。用网络信息检索的大量实践回答检索语言能否适应网络信息组织这个问题。首先列举分类语言和主题语言在国内外网络应用的大量实例,然后以其自身的优势来说明检索语言存在的必要性,并分析他们在网络环境下表现出的强大生命力。  相似文献   

12.
生物学文献自动标引系统的理论和实践   总被引:4,自引:0,他引:4  
韩客松  王永成  王刚 《情报学报》2000,19(3):259-264
在统计分析生物学中文文献的一些特点和手工标引的经验的基础上 ,本文介绍了以文献标题和摘要为标引源的自动标引方法。文章着重介绍了折半匹配的抽词和基于非线性加权体系的标引词抽取的理论和实践。  相似文献   

13.
文书类档案的主题标引研究   总被引:4,自引:0,他引:4  
本文介绍一种基于全文的主题词自动标引方法。该方法将切分关键词和标引主题词融为一体,合理地构造了词典。本文还给出一个确定标引主题词的加权函数,讨论了一些相关的技术问题  相似文献   

14.
面对自由无序的网络舆情信息,对舆情组织方式的研究体现出重要研究意义。文章提出一种网络舆情信息的组织方法,采用域加权的方式,通过一种single-pass增量算法聚类实现面向主题的舆情信息组织,即对新闻主题或新闻事件有较强表达能力的域进行加权处理以突出该主题或事件,再以无监督自动化的方式对无序的网络舆情信息进行聚类,进而发现热点话题,达到话题探测的目的。实验结果显示,聚类类簇均基于主题或事件,可以代表一个话题,F-measure评价值在85%以上,也进一步表明了本研究方法的有效性。  相似文献   

15.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

16.
Search effectiveness metrics are used to evaluate the quality of the answer lists returned by search services, usually based on a set of relevance judgments. One plausible way of calculating an effectiveness score for a system run is to compute the inner-product of the run’s relevance vector and a “utility” vector, where the ith element in the utility vector represents the relative benefit obtained by the user of the system if they encounter a relevant document at depth i in the ranking. This paper uses such a framework to examine the user behavior patterns—and hence utility weightings—that can be inferred from a web query log. We describe a process for extrapolating user observations from query log clickthroughs, and employ this user model to measure the quality of effectiveness weighting distributions. Our results show that for measures with static distributions (that is, utility weighting schemes for which the weight vector is independent of the relevance vector), the geometric weighting model employed in the rank-biased precision effectiveness metric offers the closest fit to the user observation model. In addition, using past TREC data as to indicate likelihood of relevance, we also show that the distributions employed in the BPref and MRR metrics are the best fit out of the measures for which static distributions do not exist.  相似文献   

17.
论自动标引的实际应用   总被引:2,自引:0,他引:2  
探讨电子环境下自动标引的特点、标引观念的转变以及影响自动标引的因素等问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号