首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

2.
[目的/意义]探究ChatGPT生成与学者撰写的中文论文摘要之间的异同,为AI生成学术论文检测及相关研究提供借鉴。[方法/过程]首先,以信息资源管理领域为例,分别抽取图书馆学、情报学、档案学近3年各500篇高被引论文,基于获取的论文题目采用Prompt方式应用ChatGPT工具生成对应的摘要文本,构建数据集合;其次,采用9种机器学习及深度学习算法对ChatGPT生成与学者撰写的摘要文本进行分类检测;最后,从文本特征、主题模型、ROUGE评测对二者的异同进行多角度分析,从而揭示二者之间的异同点。[结果/结论]基于数据集所训练的主流机器学习及深度学习算法可以有效地分辨摘要是AI生成还是学者撰写,其中BERT和ERNIE的效果最好,而机器学习算法中RF和Xgboost效果最好。ChatGPT生成的摘要字符数量、句子数量较学者撰写的要多,关键词多为模版化的转折性词语;两者的文本主题大部分相同,在“学科体系”“数字人文”等主题上存在差异;ROUGE及余弦相似度定量分析表明ChatGPT生成的摘要与学者撰写的摘要文本存在明显的“形似”而非“神似”的现象。  相似文献   

3.
[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary,OOV),同时避免摘要重复,提高文本摘要的质量,本文以解决OOV问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence,seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attention mechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE (recall-oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。  相似文献   

4.
[目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。[方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。[结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。  相似文献   

5.
基于词向量扩展的学术资源语义检索技术   总被引:1,自引:0,他引:1  
[目的/意义] 尝试以统计的方法为指导思想,探究基于词向量扩展的语义检索技术来提升学术资源的语义检索能力。[方法/过程] 利用自然语言处理、文本挖掘技术,对采集来的学术资源(主要是学术论文)元数据进行预处理,结合word2vec词向量生成工具和elasticsearch全文检索引擎搭建语义检索系统,对学术资源进行语义检索的探索研究。[结果/结论] 本文提出的方法能够有效提升学术信息的检索效果,一定程度上实现学术资源的语义检索,并为后续语义检索的进一步研究提供借鉴。  相似文献   

6.
[目的/意义] 为帮助读者从热点事件产生的海量微博报道中快速了解事件的来龙去脉,提高微博事件摘要的准确性和可读性,提出一种基于事件要素的多模型微博热点事件时间轴摘要提取方法。[方法/过程] 针对微博文本特征,结合主题模型(LDA)与互信息最大熵模型(MaRxEnt-MI)的特点提取事件摘要关键词,以微博传播价值和主题相关性为标准筛选微博,以时间-摘要关键词-摘要微博的形式生成时间轴摘要。[结果/结论] 利用人工标注的测试集,与传统的TextRank方法进行对比,F值提高8%-13%,内部测试表明摘要可读性提高明显。实验文本和测试集的数量及事件丰富度需要进一步扩展,应考虑更多的加权策略模型以提高摘要的准确性。实验结果及测试反馈表明,本文的方法能很好满足用户对热点事件摘要信息需求,提高微博摘要提取的准确率。  相似文献   

7.
[目的/意义]对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型.[方法/过程]以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对...  相似文献   

8.
[目的/意义]分析学术文本可读性特征对Altmetrics分数的影响,为推动学术思想的交流、传播提供实践参考。[方法/过程]以WebofScience数据平台上中国学者2019年发表的126304篇学术论文摘要文本为研究对象,采用三种可读性公式及五种语言复杂度指标对其可读性特征进行衡量,并进一步通过OLS回归分析验证不同可读性特征对Altmetrics分数的影响。[结果/结论]研究结果发现,中国学者发表的学术论文摘要文本整体可读性较低,不同学科之间存在明显差异。与此同时,不同的可读性特征也会在一定程度上影响学术论文的Altmetrics分数,即影响学术成果在社交媒体平台上所能获得的公众关注度。研究结论有助于指导中国学者利用不同的语言特征提升其英文学术写作的可读性,并为推动中国学术思想在国际领域的传播提供实践依据。  相似文献   

9.
[目的/意义]政策制定与科学研究两者间相互影响,通过研究两者的关联度,有助于创新学术影响力研究的思路和方法。[方法/过程]基于扎根理论和灰色关联度模型,以疫情防控档案学术研究和政策制定为例,探究政策关联度计量指标和主要的计量程序。首先,使用质性分析工具对政策编码以获得指标。其次,依据指标对学术论文编码并整理编码结果。最后,利用灰色关联度模型计算学术论文与政策文本之间的关联性,以关联性作为依据研究学术主体的学术影响力。[结果/结论]从宏观上来看,学术界与政策制定的关联度较高;从中观上来看,政策关联度较低;从微观上来看,政策关联度处于中等水平。  相似文献   

10.
[目的/意义]揭示与分析国外图书馆对除学术论文和专著外,学术研究对音频、视频、图片等类型资源的建设情况及服务现状,可以为我国图书馆非文本资源建设提供借鉴,并促进图书馆提升服务能力。[方法/过程]收集整理美、英、德、法等国家图书馆以及知名研究型图书馆的非文本资源数字化项目进展情况,梳理非文本资源建设政策、数字化项目内容以及服务现状。利用文献综述的方法对2008-2014年度Web of Science中有关音频、视频、地图、音乐和游戏5种主要的非文本资源的论文进行服务现状研究的归纳分析。[结果/结论]我国图书馆应该借鉴国外图书馆在非文本资源建设方面的先进经验,从制定政策规划、规范元数据标准、资源自建与引进相结合、挖掘网络开放资源和期待与出版商及流媒体机构的实质性合作5个方面加强非文本资源建设工作。  相似文献   

11.
[目的/意义] 采用hLDA从专利语料库中抽取层次主题,以描述隐藏在专利文本中的技术结构,并基于层次主题随时间变化情况进行技术演化分析。[方法/过程] 从专利术语中获取闭频繁项集,并基于此建立关联规则网络来度量术语的重要性和术语间语义关系强弱,进而对语料库进行重构,并对不同时间片段的专利集合进行层次主题结构抽取。[结果/结论] 将本方法应用于硬盘驱动器磁头领域的专利数据分析,实证结果表明该方法是一种可行和有效的技术演化分析方法。  相似文献   

12.
[目的/意义]从定量分析和定性分析两个方面对英文网络书评进行内容挖掘,形成一套基于信息分类的英文网络书评的内容挖掘方法体系,实现多文本书评的信息整合。[方法/过程]对书评文本中句子的分类方法、关键信息的提取方法、情感分类的方法以及内容的呈现方式等几方面进行实验和改进。[结果/结论]用户评价结果表明,本文所设计的内容挖掘方法所生成的书评信息摘要在生成质量和有用性两方面都有较好的表现。  相似文献   

13.
张莉 《图书情报工作》2017,61(12):94-100
[目的/意义] 在深入解读《高等教育信息素养框架》核心理念和内容的基础上开展元素养课程的教学设计,并在教学实践中进行评估和修正,以期为研究和构建元素养教育模式提供参考和借鉴。[方法/过程] 采用案例研究方法,以东北财经大学信息素养教学改革为案例,研究新媒体环境下的元素养教育模式。[结果/结论] 从元素养教育的学习目标、学习内容、学习形式和考核评价方式等环节入手开展教学设计和教学活动,将社会情境和学术情境融入教学过程中,培养学生的批判性思维和反思等元认知能力。  相似文献   

14.
[目的/意义] 科技文献中的概念是对文献中知识高度凝练的表达,通常以定义句的形式出现在科技文献中。自动从概念定义句中抽取概念,能够进一步挖掘科技文献中蕴含的重要知识。[方法/过程] 通过分析概念定义句的结构、句式等模式特征,提出以WCL数据集为基础的语料构建方案,并采用BERT+BiLSTM+CRF模型学习概念定义句的模式,从而实现概念短语抽取。[结果/结论] 结合以往对概念定义句模式特征的研究,创新性地提出一种基于序列标注学习概念定义句的组成模式,从而实现概念短语抽取。通过BERT+BiLSTM+CRF模型,有效学习了概念定义句中的上下文语义、句式结构、组成项分布等模式特征,实现了句子中概念短语的抽取。  相似文献   

15.
[目的/意义] 自动识别项目申请书摘要中的科学要素,对于揭示科技项目中的科学知识具有重要的研究意义。这些科学要素的识别依赖于结构化项目摘要文本,然而目前结构化项目摘要语料资源匮乏,严重制约着相关研究的进一步发展。拟构建项目申请书摘要文本的语步语料集,为相关研究提供数据支撑。[方法/过程] 首先将项目摘要内容归纳为背景及问题、目标及任务、方法内容、价值意义4种语步类型,总结每个语步结构中出现的标志性特征并制定语步标注规范;其次相继利用基于规则和基于深度学习的方法辅助人工进行项目摘要的语步结构标注,并对每轮标注后的语料进行质量评估。[结果/结论] 两种方法共计标注近25 000条语句,语料标注的一致性系数达到0.983 9,表明该语料集基本能够区分项目摘要内的不同语步结构,初步达到了语料库建设的基本要求。  相似文献   

16.
[目的/意义]针对中国高校文库建设中存在的"主题笼统、重仓储、服务单一"等问题,提出一种以弘扬学术精神为视角的大学文库建设新思路,旨在突破目前中国高校普遍将文库建成书库的局限。[方法/过程]以上海交通大学(简称"交大")图书馆的文库建设为例进行阐述。交大文库采用"库区+展区"的建设模式,以"弘扬学术精神"为主题,以"学人、学术、学风"为主线,围绕"办学、教学、科研与人才培养"等学校核心活动细分主题,设计了"兴学强邦、名师硕儒、钟灵毓秀、学术翘楚"4个展区,展示交大的学术成果,并深入挖掘和展示学术成果的内涵和价值,展现出交大学术精神的传承与发展脉络。[结果/结论]该思路突破了目前中国高校文库过于侧重存储功能的局限,重点设计展区,能有效支持文库文化育人功能的实现,可为中国高校文库建设提供借鉴参考。  相似文献   

17.
[目的/意义] 调查和分析英国高校图书馆学科服务的内容、组织结构、教学和培训的主要方式、技术手段和反馈模式,发掘其对国内学科服务的参考价值。[方法/过程] 利用Qualtrics网上调查平台,对英国高校图书馆的学科服务内容、组织架构、教学和培训的方式、新技术和反馈手段等进行调查,收到来自英国50所高校图书馆的58份有效问卷,并利用Qualtrics和SPSS对数据进行分析。[结果/结论] 英国高校图书馆的学科服务内容由传统的馆藏资源建设、学科联系、信息素养培训逐渐外延,面向用户提供多项科研支持服务。功能性组织架构成为英国高校图书学科服务的主流结构,但基于学科的服务模式依然占有一席之地,部分图书馆采用二元结构,兼顾功能角色和学科角色。通识教学和嵌入式教学相结合已成为英国高校图书馆教学和培训的主流方式,新技术在英国高校图书馆教学和培训中应用广泛,教学和培训的反馈方式多样化。  相似文献   

18.
[目的/意义]图书馆价值评估已成为图书馆学界的研究热点,通过评估图书馆空间产生的经济价值,用数据验证图书馆空间为高校师生科研与学习做出的重要贡献,可为高校图书馆空间改造提供决策依据。[方法/过程]结合文献调研法和消费者剩余法,对图书馆不同类型空间及服务产生的经济价值进行计算和评估。[结果/结论]以本文方法估算的华东师范大学闵行校区图书馆空间每年产生的经济价值达2519万元;在开展空间经济价值评估时,要注意仔细梳理空间类型及服务,选择恰当的市场替代品。  相似文献   

19.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

20.
[目的/意义]分析《欧盟数字化单一市场指令提案》中著作权例外条款,以期为我国图书馆相关实践工作提供学术建议及启示。[方法/过程]采用文献综述、案例分析、法理剖析及比较论证等研究方法,解读《欧盟数字化单一市场指令提案》中著作权例外条款,评析该类条款对我国图书馆界实践工作的影响及借鉴。[结果/结论]我国图书馆界应当在立法、政策以及实践层面有理有节地推动图书馆永久馆藏的数字保存、争取文献传递基于非商业性目的的合理使用以及引领文本与数据挖掘在参考咨询以及检索查新等实践工作中的广泛开展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号