首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

2.
[目的/意义]通过对国内外多语本体领域映射技术相关研究成果的总结和EuroWordNet案例分析,为国内跨语言信息检索系统映射机制的建立提供借鉴和参考。[方法/过程]选取目前发展较为成熟的多语本体库EuroWordNet作为案例,分别从数据库设计、本体构建、概念存储和多语文化差异的映射处理4个方面对其中间语言索引机制(Inter-Lingual-Index,ILI)进行分析。[结果/结论]嵌入式的数据库结构设计、概念抽取及同义词集对应关系的界定、概念存储的细粒度化和复杂等价关系的建立是建立跨语言信息检索映射机制的关键。  相似文献   

3.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

4.
[目的/意义] 在全球e-science发展背景下,科学数据管理实践日益呈现出对跨学科思维和方法的渴求,运用档案学领域的相关理论和方法有利于提升科学数据保存和共享重用的质量和效率。[方法/过程] 采用文本分析法和综合集成法,对OCLC、DCC、RDA、ICA四个国际组织相关文献成果中涉及的档案学理论和方法及相关科学数据管理工作进行了文本编码和归纳分析。[结果/结论] 档案学视角下的数字文档连续性保障、背景信息管理、鉴定处置和长期保存对科学数据管理具有支撑作用,建议通过开展跨学科合作对话、建立跨机构连续性管理制度框架、培育具有档案专长的数据馆员等路径提升科学数据管理效能。  相似文献   

5.
[目的/意义]关键词是检索期刊论文的重要入口之一,其标注质量直接影响检索效果。规范、科学的关键词,不仅可以提高论文的检准率,而且可以更准确地揭示论文的主题内容。[方法/过程]利用语言学的直接成分分析法和统计学的分析方法,以近5年图书情报学科"基于……的……"论题的3 636篇论文的题录为数据,通过对论题要素的识别与标注,并与作者标注的关键词进行对比分析,判断作者标注关键词所反映论文研究内容的科学性。同时将作者标注的关键词与领域主题词表进行比对,判断其关键词标注的规范性。[结果/结论]通过对比与统计分析后得出如下结论:①37.16%的论文关键词存在与论题要素不一致,不能准确描述论文研究主题内容的情况;②96.88%的论文关键词存在不同程度的标注不规范情况。在此基础上,提出关键词规范选取的策略。  相似文献   

6.
[目的/意义]面向专利文本进行更细粒度的技术实体识别和技术预测,利于更详细地把握专利技术布局与趋势。[方法/过程]首先利用深度学习方法自动识别专利技术术语类实体,通过实验对比多组深度学习算法的优劣。其次,提出新的半监督标注和自定义标注方案,提高人工标注效率。最后,执行训练得到的最优模型,结合链路预测方法,对合成生物技术进行细粒度的技术预测。[结果/结论]实证结果表明RoBERTa-BiLSTM-CRF模型更适用于语义复杂的专利技术实体识别,F1值可达到86.8%,技术识别结果比传统IPC分析方法更精细。同时,细粒度的技术预测结果表明,合成生物学的合成方法在不断改进创新,合成物研究向合成燃料发展。  相似文献   

7.
[目的/意义] 快速、准确地从突发网络舆情文本中识别事件。[方法/过程] 提出一种融合句法特征和句法相似度的网络舆情突发事件识别方法。结合句法特征提出面向事件的句法特征提取方法,利用事件语义标注和句法特征提取方法构造事件句法特征库,通过计算待测文本与句法库的句法相似度来识别网络舆情突发事件。[结果/结论] 以新型冠状病毒肺炎疫情为例,所提出网络舆情突发事件识别方法在该舆情下的最优相似度为0.93,在此相似度下从一段新的文本中识别出160个事件和30个非事件,F1值达到了0.848。通过方法测评证明网络舆情突发事件识别方法在利用句法相似度识别事件和进行相同相邻词性合并等方面创新的有效性。  相似文献   

8.
[目的/意义] 中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先,将古籍断句与标点分为两个串行任务,会引起错误传递。其次,自动标注的标点也较为混乱,对长距离可嵌套的成对引号标注研究较少。[方法/过程] 通过对大规模古籍语料库的标点符号频率统计,结合现有标点符号用法标准,明确古文自动标点的符号体系。根据点号含有断句信息,提出断句标点一体化处理方案,直接在没有断句的古籍文本上进行自动标点。并通过设计多元引号标记集和段首填充占位符,解决长距离可嵌套成对引号的自动标注难题。算法上根据序列标注方法,采用SikuRoBRETa-BiLSTM-CRF在1亿多字的繁体古籍文本语料上完成模型训练。[结果/结论] 在开放测试集《左传》上,点号标注的F1值为77.09%,断句达到91.72%;对单个引号的标注F1值达到89.28%,成对引号为83.88%。结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果,有效地解决了引号的自动标注问题。  相似文献   

9.
张颖怡  章成志  Daqing  He 《图书情报工作》2022,66(12):125-138
[目的/意义]问题和方法是学术论文的重要组成部分。将散落在学术论文中的问题与方法进行有效组织,例如问题与方法识别及其之间的关系抽取,可挖掘学术论文中的隐性知识,促进学科的方法体系和问题体系构建。对学术论文中问题与方法识别及其关系抽取的相关研究工作的梳理,有助于把握该研究的发展趋势、发现该研究中存在的不足,并为未来的工作提供借鉴和指导。[方法/过程]在学术论文的问题和方法的挖掘方面,现有研究围绕4个研究点展开,分别是问题与方法及其关系定义、问题与方法及其关系标注数据集构建、问题与方法识别及其关系抽取的模型设计以及问题与方法及其关系的应用。本文分别对这4个研究点进行梳理,归纳总结现有学术论文中问题和方法知识挖掘的现状。[结果/结论]分析发现,在问题与方法的相关定义中,较少结合科学哲学中的问题学等理论进行定义;在问题与方法数据集构建中,存在数据集重复标注的现象,另外,开源数据集集中在自然科学领域且一般为英语语料,中文开源语料稀缺;在问题与方法识别及其关系抽取中,现有抽取模型性能较低;有关问题和方法的研究不应止步于词语识别和关系抽取,需对挖掘出的知识进行深入分析和应用。  相似文献   

10.
[目的/意义]从定量分析和定性分析两个方面对英文网络书评进行内容挖掘,形成一套基于信息分类的英文网络书评的内容挖掘方法体系,实现多文本书评的信息整合。[方法/过程]对书评文本中句子的分类方法、关键信息的提取方法、情感分类的方法以及内容的呈现方式等几方面进行实验和改进。[结果/结论]用户评价结果表明,本文所设计的内容挖掘方法所生成的书评信息摘要在生成质量和有用性两方面都有较好的表现。  相似文献   

11.
[目的/意义] 采用hLDA从专利语料库中抽取层次主题,以描述隐藏在专利文本中的技术结构,并基于层次主题随时间变化情况进行技术演化分析。[方法/过程] 从专利术语中获取闭频繁项集,并基于此建立关联规则网络来度量术语的重要性和术语间语义关系强弱,进而对语料库进行重构,并对不同时间片段的专利集合进行层次主题结构抽取。[结果/结论] 将本方法应用于硬盘驱动器磁头领域的专利数据分析,实证结果表明该方法是一种可行和有效的技术演化分析方法。  相似文献   

12.
郭进京  黄奇 《图书情报工作》2021,65(20):123-134
[目的/意义] 科学研究(尤其是医学研究)充满了不确定性,识别研究中的矛盾知识主张将有助于识别"科学分歧/不一致的科学结论",推动潜在变革性科学研究的识别和相关研究的完善。[方法/过程] 以阿尔茨海默病为例,将PubMed文摘数据作为数据源,采用SemRep工具进行三元组抽取。制定表征矛盾意义的知识主张识别规则,依据不确定性程度高低对来源语句进行划分,分别采用单句识别和跨语句识别两种途径,识别以三元组形式表示的、具有矛盾意义的医学研究知识主张。[结果/结论] 从来源于PubMed的6 574篇医学文摘中共计识别出49组(涉及277对三元组)矛盾知识主张。阿尔茨海默病在诊断和治疗方面的研究仍存在部分争议和矛盾,有待进一步验证。矛盾知识主张识别为潜在变革性医学研究前沿发现提供新思路,可用于基于知识计量的知识发现和为知识图谱可信度计算提供参考。  相似文献   

13.
科学数据语义描述研究述评   总被引:1,自引:0,他引:1  
周宇  廖思琴 《图书情报工作》2017,61(12):136-144
[目的/意义] 对国内外科学数据语义描述相关研究成果进行调研分析,归纳研究热点、研究特征和研究框架,总结研究中存在的不足,提出发展建议,为今后国内科学数据组织和服务提供参考和借鉴。[方法/过程] 从多个权威数据库采集国内外2007年1月至2016年12月发表的有关科学数据语义描述的期刊论文和学位论文,采用比较法和归纳法分析并揭示研究热点,并对相关研究成果进行述评。[结果/结论] 研究结果表明:①国内外科学数据语义描述研究很不均衡,主要研究成果集中在自然科学领域;②基于描述深度、加工层次和表现形式的分析维度更方便洞悉各种语义描述方法的本质特征和区别;③当前科学数据语义描述研究还存在不足,需要在描述对象选择、可视化检索、数据集成、知识发现等方面进行深入研究。  相似文献   

14.
国内外开放科学的实践进展与未来探索   总被引:1,自引:0,他引:1  
温亮明  李洋  郭蕾 《图书情报工作》2021,65(24):109-122
[目的/意义] 及时追踪分析国内外开放科学实践进展,可为科技管理部门调整开放科学政策、布局开放科学方向提供决策支持。[方法/过程] 对当前开放科学的研究与实践进行四个方面的归纳:开放科学的概念内涵与现实意义、国外开放科学实践进展、国内开放科学实践进展、开放科学的未来发展趋势。[结果/结论] 开放科学是知识从闭塞走向创新的必然选择,国际社会已在开放科学战略、开放基础设施、开放科学数据、开放获取期刊等方面进行了良好实践;我国在开放科学的制度规划、文化营造、开放程度、品牌声誉等方面尚待提升;未来,开放科学将朝着全球化、FAIR化、生态化、云端化等方向发展。  相似文献   

15.
[目的 /意义]将海量学术文本观点提取工作由人工转向机器,提高效率的同时又能够保证观点提取的准确性、客观性。[方法 /过程]使用UniLM统一语言预训练模型,训练过程中对模型进行精调,以人工标注数据集进行机器学习。将学术文摘作为长度为a的文本序列,经过机器学习,生成长度为b的句子序列(a≥b),并且作为学术论文观点句输出。[结果 /结论 ]研究结果表明:UniLM模型对于规范型文摘、半规范型文摘、非规范型文摘观点生成精准度分别为94.36%、77.27%、57.43%,规范型文摘生成效果最好。将机器学习模型应用于长文本观点生成,为学术论文观点生成提供一种新方法。不足之处在于本文模型依赖文摘的结构性,对非规范型文摘观点生成效果有所欠缺。  相似文献   

16.
[目的/意义] 研究ODC协议对处理开放数据著作问题、降低数据利用侵权风险、预防数据权益纠纷发生、实现开放数据可持续发展具有重要意义。[方法/过程] 以法律关系分析方法,厘清覆盖于数据之上的著作权法律关系;以字面解释等法律解释方法,对ODC协议及其重要条款进行解读;以案例调研、比较研究等方法,对ODC协议的适用问题进行归纳并提出解决方案。[结果/结论] ODC协议通过将数据的著作权法律关系解构为单个数据、数据内容、数据库、衍生数据库、集成数据库、数据产出等部分来设计授权使用条款,将开放数据的使用者扩展至所有主体,技巧性地回避了对事实数据进行授权的法理难题,同时从多个方面实现了协议的明确性、全球性和前瞻性。ODC协议是开放数据著作权问题的有效解决方案之一,适用时建议同时建立数据许可权限管理机制、科学发现权的承认与保护机制,并建议在未来的ODC协议更新版本中完善对被许可人恶意重复违约的规制问题。  相似文献   

17.
[目的/意义]总结分析中国科学院文献情报系统学科馆员的发展能力建设情况,为学术图书馆未来发展提供最佳实践案例。[方法/过程]针对面向新科研环境下的用户新需求和学科馆员能力要求,中国科学院文献情报系统开展的学科服务发展能力建设专项,剖析其理论基础、总体方法和内容。通过案例分析,对此专项实施的重要内容进行详细分析。[结果/结论]学科馆员服务发展能力建设的重要核心内容包括嵌入协同式团队、咨询交流互动机制、知识化服务和长效管理机制等。经过近5年的实践,取得了较好的建设成效,用户反馈良好。  相似文献   

18.
[目的/意义] 综述目前顶尖科学家的学术影响力变化规律研究,为发现顶尖科学家学术成长规律提供研究方向。[方法/过程] 首先界定顶尖科学家的范围,总结个人学术影响力的内涵及其定量测度方法,然后重点从学术影响力测度方法、规律研究方法、规律研究结果和顶尖科学家学术影响力变化规律假说这4个角度对顶尖科学家学术影响力的变化规律研究现状进行综述。[结果/结论] 认为顶尖科学家的学术影响力变化规律现有研究中存在数据处理过于笼统等问题,指出今后5个可能的研究方向。  相似文献   

19.
[目的/意义] 对海外基于开源软件的典型科研数据共享服务平台案例进行调研,从技术、内容、功能、应用等几个层面,梳理总结其特征和建设运营经验,从而为我国科研数据平台建设和科研数据管理提供有益经验。[方法/过程] 以Fedora系统和Dataverse系统所构建的四个科研数据共享服务平台(SDR、DC、OIAD、HD)为调研主体,阐述平台基本架构,探讨平台技术、内容和主要功能。[结果/结论] 4个平台所使用的软件技术相似,基本模块和主要功能各不相同,但都是以科研数据资源开放共享为目的所构建的平台。建议我国建设科研数据共享服务平台,需要综合考虑政策内容、用户与资源、合作关系及教育培训等方面内容。  相似文献   

20.
[目的/意义]旨在支持科学研究,促进学术交流,推动开放获取,实现北京大学研究数据的有效管理。[方法/过程]调研研究数据管理服务,以优秀研究数据管理平台Dataverse为基础,深入分析系统结构和功能,结合北京大学本地化用户需求做定制化开发。[结果/结论]构建北京大学开放研究数据平台,并提供研究数据存放、发布、共享和管理服务,有力地支持学校科学研究和学术交流活动。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号