首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 390 毫秒
1.
略论图书在版编目数据的质量问题及对策   总被引:12,自引:0,他引:12  
目前我国的 CIP数据准确率不足 60 %。存在的主要问题是 :著录格式不标准 ,著录项目错误 ,标识符号差错 ;分类标引错分 ,分类标引不一致 ,随意补充分类号 ;主题标引选词不准 ,组配不规范 ,错标、漏标。针对上述问题 ,提出 10条相应对策。参考文献 11。  相似文献   

2.
在智慧政务的应用背景下,利用深度学习的方法对海量的科技政策文本数据进行自动分类,可以降低人工处理的成本,提高政策匹配的效率。利用BERT深度学习模型对科技政策进行自动分类实验,通过TextRank算法和TF-IDF算法提取政策文本关键词,将关键词与政策标题融合后输入BERT模型中以优化实验,并对比不同深度学习模型的分类效果来验证该方法的有效性。结果表明,通过BERT模型,融合标题和TF-IDF政策关键词的分类效果最佳,其准确率可达94.41%,证明利用BERT模型在标题的基础上加入政策关键词能够提高政策文本自动分类的准确率,实现对科技政策文本的有效分类。  相似文献   

3.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

4.
为缓解海量文献关键词标引的巨大压力,文章构建了用于海量文献关键词标引的计算机辅助加工系统,对标引数据预处理规范、自动标引核心工作区和人工标引校对平台进行了具体阐述。文章采用数据测试方法确定了自动标引软件,在单一软件不能满足标引要求后探索了多种机标结果后处理方式提升机标质量,最终由人工标引校对平台保证海量文献关键词标引质量的同时,将机标出现的问题和改进意见反馈给软件设计和词表维护,保证了计算机辅助加工系统的持续改进。  相似文献   

5.
[目的/意义]关键词是检索期刊论文的重要入口之一,其标注质量直接影响检索效果。规范、科学的关键词,不仅可以提高论文的检准率,而且可以更准确地揭示论文的主题内容。[方法/过程]利用语言学的直接成分分析法和统计学的分析方法,以近5年图书情报学科"基于……的……"论题的3 636篇论文的题录为数据,通过对论题要素的识别与标注,并与作者标注的关键词进行对比分析,判断作者标注关键词所反映论文研究内容的科学性。同时将作者标注的关键词与领域主题词表进行比对,判断其关键词标注的规范性。[结果/结论]通过对比与统计分析后得出如下结论:①37.16%的论文关键词存在与论题要素不一致,不能准确描述论文研究主题内容的情况;②96.88%的论文关键词存在不同程度的标注不规范情况。在此基础上,提出关键词规范选取的策略。  相似文献   

6.
[目的/意义]现有的关键词提取方法不适应社会化问答社区文本长度较短、内容表述口语化、数据集稀疏的特点,且很少考虑用户关注程度对词语重要性的影响,不能有效地提取此类文本的关键词,因此,提出针对社会化问答社区的多属性加权关键词提取方法。[方法/过程]多属性加权关键词提取方法通过引入调节函数和词性对传统TF-IDF进行改进,并通过线性加权融合用户回答数、关注数、浏览数以及评论数4个用户关注属性来综合度量词语权重。[结果/结论]实验表明,该方法能更有效地提取社会化问答社区文本的关键词。  相似文献   

7.
本文探讨了基于自动标引的《中国分类主题词表》(简称《中分表》)改造的模式、结构以及关键技术。在原《中分表》分类体系的框架之上,收集标引经验库中分类标引和主题标引的双重标引数据及其他相关数据,应用支持度、置信度和相关度等筛选处理方法,最终得出分类号与关键词(串)的最佳对应关系组合。本文从收词量、相符度、专指度、标引深度、主题标引能力和分类标引能力6个方面详细地对改造后的《中分表》进行了测试,结果表明改造后的《中分表》在编制方式、类目设置、收词量、全面性和专指性等方面都具有一定优势。建议在《中分表》的更新改造中,尽量采用立体化的整体结构,保证完备的收词量,进行必要的分级化控制并扩大用户交互。  相似文献   

8.
首标关键词(首标词)是表达论文最核心内容的词,最能体现论文的种类及实施的方法。为了准确标引,本文就医学论文首标词的组配、首标词与中国图书分类法分类号标引一体化进行探讨,重点对首标词的标引原则及几种内容较复杂的医学论文首标词标引方法进行阐述。认为合理、准确选取首标词,可缩小读者查找文献的范围,便于文献检索系统使用,提升期刊的影响力。  相似文献   

9.
[目的/意义]针对目前专利关键词抽取算法评价中主要采用抽取的关键词与专家人工标注关键词进行匹配存在的问题,提出一种基于信息增益与相似度的专利关键词抽取算法评价模型.[方法/过程]提出的评价模型从内部和外部两个层面评估专利关键词抽取算法的准确性.其中,内部评价模型度量待评价算法抽取的每个关键词的信息增益,以评估被抽取的关...  相似文献   

10.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

11.
李楠  张超  路璐  邹沐宏 《图书情报工作》2020,64(15):151-156
[目的/意义] 以中国科学院文献情报中心"中国科讯"为例,分析专业图书馆应急科学传播服务的举措及成效,为应急事件下专业图书馆科学传播服务提供借鉴。[方法/过程] 梳理新冠肺炎疫情期间"中国科讯"微信公众号推送的服务内容,从日均用户增长和阅读量分析用户对不同类型内容的关注程度,提出应急科学传播服务的思考。[结果/结论] 疫情期间,"中国科讯"日均用户增长明显,电子资源保障类内容阅读量最高,其次为新冠病毒科技攻关进展相关内容、科普类直播和信息素养教育直播观看人数达到数万人。应急事件下,专业图书馆应加强特色服务的宣传、加强信息甄选和审核机制,重大公共卫生事件下应急科学传播工作预案缺失也需引起重视。  相似文献   

12.
[目的/意义]准确把握社交网络用户兴趣倾向,对用户进行分类并形成高聚合的用户群,对研究社交网络信息生态以及信息推荐有重大意义。[方法/过程]通过构造基于多维度的用户属性描述层次模型,根据模型数据需求从新浪微博抓取用户样本数据,对相关用户背景信息、用户博文信息以及用户行为信息的多维度属性下二阶变量进行量化,构造用户向量表达式,比较单一维度与多维度下的用户分类效果,进一步给属性赋予不同的权重值进行加权分析,在取得最优聚类效果后进行方差分析,对模型进行改进。[结果/结论]基于多维度属性加权后的用户聚类效果明显高于单一维度及多维度非加权条件下的用户聚类,且用户博文内容维度对于提高用户聚类效果的有效性最大。  相似文献   

13.
[目的/意义]为了深入了解科研众筹平台中的项目情况,本文对科研众筹项目的基本特征、研究主题和不同类型科研众筹项目的属性对比进行研究。[研究设计/方法]首先对科研众筹的起源、价值和运作模式进行了梳理;随后爬取了科研众筹平台Experiment的项目信息,并对该平台中科研项目的发起者、背书者、项目记录、所属学科、资助情况等进行特征描述;基于LDA模型对科研众筹项目主题进一步细化,并对不同资金筹集和不同主题分类情况下的科研众筹项目的属性差异进行比较分析。[结论/发现]科研众筹主题主要集中在生物学和生态学两个领域,不同资金筹集达成情况的科研众筹项目在项目背书者数量、信息记录次数和讨论次数上具有显著差异;不同主题的科研众筹项目在其讨论次数上具有显著差异。同时,是否提供视频和是否参与资助挑战在不同资金筹集达成情况和不同主题的科研众筹项目上均具有显著差异。[创新/价值]深入分析了科研众筹平台中项目主题及属性对比情况,对科研众筹平台优化信息审核机制、社交机制和信息展示机制具有一定的参考价值。  相似文献   

14.
[目的/意义] 从用户满意度出发将高校图书馆已开展的科研支持服务项目进行排序,通过Kano模型找出关键因素以及对项目的影响,以便图书馆能够合理配置资源,提高服务质量。[方法/过程] 运用Kano模型的基本理论,结合"985"高校图书馆科研支持服务项目分类,通过设计Kano问卷、开展问卷调查、统计调查数据和分析满意度4个步骤将科研支持服务项目进行归类。[结果/结论] 提出4个层次的科研支持服务项目,分别为基础项目、扩展项目、特色项目和无差异项目,为不同规模的高校图书馆提供科研支持服务项目选择的一种分析方法和建议。  相似文献   

15.
龚凯乐  成颖 《图书情报工作》2016,60(24):115-121
[目的/意义] 以网络问答社区为研究对象,提出基于“问题-用户”传播网络的专家发现方法,为建立用户激励机制、完善专家推荐方法提供借鉴。[方法/过程] 通过分析开放问答模式的特点,以“问题”和“用户”为节点、“答题关系”为有向边,构建“问题-用户”权威值传播网络,利用答案质量改进加权的HITS算法。[结果/结论] 提出的算法可以较好地兼顾用户的答题数量与答案质量,能够选择出活跃度高、知识渊博的用户作为专家。  相似文献   

16.
[目的/意义]探究社交媒体用户转移行为的影响因素,拓宽社交媒体用户行为的研究范围,以期为相关理论研究提供参考,并对社交媒体运营商提高服务质量、增加用户粘性提供借鉴。[方法/过程]基于期望确认理论、沉浸理论以及信息系统成功模型构建理论模型,重点关注社交媒体系统质量、信息质量、服务质量、沉浸体验以及用户社交媒体使用满意度是否会以及会在多大程度上影响用户转移行为。通过问卷调查法获得数据,利用SPSS和AMOS分析软件进行数据的分析和假设的验证。[结果/结论]通过分析可知社交媒体系统质量、信息质量、服务质量以及沉浸体验对用户满意度具有正向影响,而用户满意度负向影响转移行为。  相似文献   

17.
��[Purpose/significance] The abstract of scientific papers is a vital indexing object within information organization. Meanwhile, indexing the abstract according to certain rules is conducive for not only scientific communication or knowledge discovery, and intelligence analysis as well. Thus, how to realize auto-index accurately and quickly, for millions of unstructured abstracts existed nowadays is a crucial problem to be addressed.[Method/process] This study assumed that different categories of abstract are inherently consistent, that is, the study of structured abstract can provide a method and technical reference for unstructured abstract auto-indexing. Acting in accordance with this assumption and based on the US National Library of Medicine's structural element labeling terminology, this study accomplished mapping across abstract element classifications and proposed BOMRC system, a normalization indexing method for structured abstract. Then we collected research sample and used text mining method to analyze multiple features of structured abstract quantitatively and statistically, such as word frequency, TF-IDF value, as for dimension of words, verbs, three-word lexical chunks and four-word lexical chunks, which enabled us propose a semantic feature dictionary for structured elements. Finally, we used unstructured abstract to test the validity of the semantic feature dictionary.[Result/conclusion] The results show that the semantic feature dictionary method can effectively identify various structural elements of scientific paper abstract, and it can be used to optimize the automatic recognition model, which may be based on machine learning methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号