首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
中文期刊文献通用词标引分析   总被引:1,自引:0,他引:1  
通用因素是文献主题的构成因素之一,对主体因素起细分作用。通用词是指那些在专业领域没有独立检索意义的泛指词。在中文期刊文献标引的过程中,通用词的使用对其标引结果产生着重要的影响。文章讨论了通用词标引的一般规则,并以《中国期刊网》中的文献为例,进行抽样统计和实例分析,归纳了通用词标引的错误现象及其原因,并对期刊文献的通用词标引提出了几点改进意见。  相似文献   

2.
文章首先介绍了汉语科技词系统的体系结构和功能,其次设计了自动赋词标引研究的整体思路,完成了自动赋词标引的系统功能实现,包括标引知识库的格式转换、算法实现和系统实现,并收集语料进行测试。最后对自动赋词标引的结果进行了分析,并且总结了该自动赋词标引研究的特点和不足,介绍了未来的工作设想。  相似文献   

3.
关于文献关键词标引问题   总被引:1,自引:0,他引:1  
对文献关键词标引问题进行了论述.指出了科技文献关键词标引中的一些误区,提出了文献作者和科技期刊编辑人员在标引关键词时的规则和注意事项.同时,还指出了关键词标引对文献存储和检索的重要作用.介绍了关键词和主题词的关系.  相似文献   

4.
动态构词标引研究   总被引:1,自引:0,他引:1  
在以词典匹配为基础的中文自动赋词标引中,存在如何实现专有名词的增词标引问题。本文结合笔者对档案文献自动标引的研制实践,提出了针对性的解决方法———动态构词标引。文章重点讨论了构词标引的类型与实现,并给出了相应的算法与规则  相似文献   

5.
生物学文献自动标引系统的理论和实践   总被引:4,自引:0,他引:4  
韩客松  王永成  王刚 《情报学报》2000,19(3):259-264
在统计分析生物学中文文献的一些特点和手工标引的经验的基础上 ,本文介绍了以文献标题和摘要为标引源的自动标引方法。文章着重介绍了折半匹配的抽词和基于非线性加权体系的标引词抽取的理论和实践。  相似文献   

6.
网络环境下,文献信息具有数量多、增长快、文献信息中的新词层出不穷等特点。标引是对信息资源进行组织的有效手段和重要环节,标引的质量和效率直接影响信息组织的质量和速度。为了比较受控标引、自由标引和自动标引三种标引方式的标引性能,本文从定量的角度对三种标引方式的相符度、专指度、标引深度及通用词数进行了测试对比,并分析了它们的综合性能。最后,分析讨论了网络环境下文本信息标引方式的选择和发展趋势。表5。图1。参考文献9。  相似文献   

7.
引文主题与源文献主题具有相关性.基于这一事实,本文提出了一种基于汉语科技文献引文的自动标引法.具体过程是以词典为依据对源文献与引文题名进行抽词处理,并为不同类型引文赋予不同的权重,在此基础上确定用于标引源文献的关键词.本文还对此法的可行性进行了测试,并提出了改进方法.  相似文献   

8.
网络环境信息标引的测评与比较研究   总被引:1,自引:1,他引:0  
网络环境下,文献信息具有数量多、增长快、新词层出不穷等特点。标引是对信息资源进行组织的有效手段和重要环节,标引的质量和效率直接影响信息组织的质量和速度。对受控标引、自由标引和自动标引三种标引方式进行了相符度、专指度、标引深度及通用词数的测试对比.得出自由标引优于受控标引,自动标引优于自由标引及受控标引的结论。  相似文献   

9.
自动标引研究的回顾与展望*   总被引:3,自引:0,他引:3  
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。  相似文献   

10.
本文介绍了主题词应用的概念要领、基本常识,明确了主题词标引的性质、特钲、方法和步骤,指出了正确使用主题词,标引规范词,对实现军用公文以及各类文献信息资源共享的作用。  相似文献   

11.
基于专利分析的视角,调研了国内外专利信息资源的现状和特点,明确了用于专利分析的资源及其加工深度的不足,设计了预处理和深加工的方案,重点为专利清洗和专利中四类信息的内容标引:发明类型、技术主题、发明改进和应用领域。并以新能源汽车领域为例,对中文专利进行了深加工实证研究。结果显示,利用清洗和深度标引后的专利资源能有效提高分析的准确度和专利资源揭示深度。  相似文献   

12.
针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采 用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程 度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利 统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。  相似文献   

13.
为了满足日益增长的对专利检索的需求,国家高技术研究发展计划(863计划)启动了族性化学结构数据库系统的研究与开发。族性化学结构数据库系统主要涉及两方面的关键技术:(1)族性化学结构的计算机表达, (2)族性化学结构的检索算法。本文主要讨论族性化学结构的计算机表达。存在于化学专利原始文献中的族性化学结构是用具有一定规范的自然语言表述的。为了能在计算机系统中储存与检索这些信息,自然语言表述的族性化学结构必须转换为计算机可以接受的无歧义的形式语言。这个过程叫做族性化学结构的标引。国际上一般采用的基于结构片断的族性化学结构标引形式语言开发于20世纪70~80年代,这种形式语言与化学家采用的图形自然语言相去甚远,标引速度慢,成本高。本文介绍在ISIS/Draw绘图功能基础上发展起来的标引族性化学结构的图形形式语言,它的主要特点是与化学家日常使用的图形自然语言接近,规则简单易于掌握,从而提高标引效率,降低族性化学结构数据库系统的实现成本。  相似文献   

14.
[目的/意义] 在专利分析中引入Knowledge Graph,将专利内容转换为由Knowledge Graph中实体语义关系所构成的图结构,进而探索该形式的专利表示方法在识别专利诉讼案中专利证据的可行性。[方法/过程] 在专利内容转换过程中,首先采用自动术语识别方法提取其实体指称,并通过实体链接将实体指称转化为命名实体,进而根据图算法识别出该专利的隐含实体,最终形成该专利所对应的图结构。[结果/结论] 将该专利表示方式应用于硬盘驱动器领域来寻找专利诉讼案中可用的证据专利,实证结果表明,与当前主流的专利文本表示方式相比,该方法在寻找证据专利效果上有较大提升。  相似文献   

15.
基于UCL的网页信息自动标引技术研究   总被引:1,自引:0,他引:1  
参照都柏林核心元数据规范构建网页信息的标引框架,提取网页特征信息,采用ADO技术实现网页信息的自动标引,实验结果表明,标引信息映射到网页的正确率为100%。最后,将标引技术应用到互补结构网络智能代理终端,验证UCL标引方法的有效性。实验结果显示,通过基于UCL的网页信息自动分类及标引技术能够实现信息的主动服务,满足用户的个性化需求。  相似文献   

16.
随着专利数据规模的不断增长,对专利数据的深入挖掘也变得日益重要,特别是专利数据中所蕴含的技术功效等信息具有较高的价值。本文提出了一种基于隐马尔科夫模型的专利功效词识别方法,通过词法与句法分析筛选出候选功效词,在此基础上,采用隐马尔科夫模型并结合专利发明改进的特征设计了功效词识别算法,对候选功效词进行过滤。在新能源汽车等不同领域的专利数据集上,以准确率与召回率作为评价标准,验证所提出方法的有效性。实验结果表明,此方法有效提高了识别准确率与召回率。  相似文献   

17.
基于本体的专利摘要知识抽取*   总被引:4,自引:0,他引:4  
采用知识工程的方法,对“新能源汽车”中文专利摘要进行研究分析,提出了一个基于本体的中文专利摘要抽取模型。通过构建相应的本体、收集相关的词表、撰写相应的规则,并利用这些规则对专利摘要进行知识抽取结果,抽取结果辅助完成专利知识库的自动构建。即就如何组织非结构化信息以及如何自动构建知识库的进行尝试,验证了基于本体对专利摘要进行知识抽取的可行性。  相似文献   

18.
为了高效分析中美在美国商业管制清单(Commerce Control List,CCL)记录的管制技术上的差距,针对CCL清单数据非结构化程度高的问题,提出了一种管制清单数据和专利数据的自动映射方法,实现了从专利视角自动揭示中美技术差距。基于文本挖掘的思想,研究制定了管制清单文本规范化流程,提出了基于TF-IDF (term frequency-inverse document frequency)和Word2Vec的管制清单数据与专利数据自动映射方法和效果评价指标。以2019年美国商业管制清单和2018年全球PCT (Patent Cooperation Treaty)专利申请数据为例进行实证研究,通过评估模型效果,最终发现当文本相似度阈值为0.87时,Word2Vec模型的自动映射结果最优,并以此开展技术差距分析。本研究提出的方法能够自动化映射管制清单数据和专利数据并开展情报分析,分析结果具有较高的可解释性,是提升情报分析时效性的有力手段,具有较高的实际应用价值。  相似文献   

19.
《图书情报工作》论文关键词及分类号的统计分析   总被引:2,自引:0,他引:2  
邵胜春 《图书情报工作》2005,49(3):59-61,132
运用文献计量学方法,统计2001-2003年《图书情报工作》论文关键词及分类号,并对其数量、内容、标引质量等进行研究分析。结果显示,该刊关键词和分类号的标引质量较高,但还有不足之处。希望广大论文作者和编辑人员共同努力,进一步提高科技论文的标引质量。  相似文献   

20.
赵娟  潘薇  刘会景 《情报工程》2016,2(4):049-055
专利文献侧重于技术创新成果。在技术创新研究中,研发人员有必要对所研究的专题技术实施较为全面的专利信息检索。作者以循环肿瘤细胞(Circulating Tumor Cells,CTC)技术为例,系统阐述专题技术的专利检索策略,主要包括:专利检索工具的选择、关键词的确定、分类号的确定、检索式的设定、查全率与查准率的验证、补充检索。作者通过扩展技术分支检索,提高了检索结果的查全率;通过合理地选取专利分类号,降低了检索结果的噪声。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号