首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
刘振 《情报科学》2018,36(9):115-117
【目的/意义】为了帮助科研人员从海量信息中发现热点和重大研究进展,抽取出有用的事件信息。【方法/ 过程】采用条件随机场方法和语义角色标注技术,构建了模型进行训练和学习。【结果/结论】提出了科技事件抽取 框架,实现了科技事件抽取系统,取得了一定的抽取效果,该系统的可扩展性和可移植性有待提高。  相似文献   

2.
[目的/意义]为了解决互联网时代信息过载的问题,尝试从海量的新闻报道中自动抽取新闻事件,并按照事件发生的时间进行排序,向用户展示结果。[方法/过程]利用网络爬虫自动获取新闻文本,使用中心事件句判定和RoBERTa+MRC的方法进行实体抽取,从非结构化文本中抽取语义信息并生成结构化的新闻摘要。在此基础上,对摘要中的时间信息进行标准化处理,并按照时间顺序生成新闻时间线。[结果/结论]实验结果表明,中心事件句判定和RoBERTa+MRC相较于传统方法有更好的事件抽取效果,文章设计的新闻时间线展示系统能够帮助用户了解新闻事件的发展脉络,解释新闻主题的事件走向与演化规律。  相似文献   

3.
[目的/意义]互联网开源信息具有海量、多源异构等特点,如何从中及时发现有价值的信息,并对信息加以情报利用一直是情报研究和实践应用的重点领域之一。文章提出一套开源的学术会议领域信息抽取框架,解决信息抽取语义理解和关联融合的问题,并将其应用于情报研究中,为解决情报分析的智能应用提供工具和方法。[方法/过程]采集网络上新闻报道的内容,采用预训练语言模型方法挖掘学术会议事件信息,提出面向特定领域的信息抽取框架,实现会议名称及其举办时间、地点、出席人、发言人信息的抽取,并进行实际的情报利用研究案例分析。[结果/结论]相较于单一抽取实体的方法,抽取会议核心元素更具有情报关联性和准确性,可以更好地对开源热点事件发现和跟踪监测、目标人物轨迹动向分析等研究提供方法,为情报分析应用和情报研判奠定基础。  相似文献   

4.
李旭晖  周怡 《情报科学》2022,40(3):99-108
【目的/意义】关键词抽取的本质是找到能够表达文档核心语义信息的关键词汇,因此使用语义代替词语进 行分析更加符合实际需求。本文基于TextRank词图模型,利用语义代替词语进行分析,提出了一种基于语义聚类 的关键词抽取方法。【方法/过程】首先,将融合知网(HowNet)义原信息训练的词向量聚类,把词义相近的词语聚集 在一起,为各个词语获取相应的语义类别。然后,将词语所属语义类别的窗口共现频率作为词语间的转移概率计 算节点得分。最后,将TF-IDF值与节点得分进行加权求和,对关键词抽取结果进行修正。【结果/结论】从整体的关 键词抽取结果看,本文提出的关键词抽取方法在抽取效果上有一定提升,相比于TextRank算法在准确率P,召回率 R以及 F值上分别提升了 12.66%、13.77%、13.16%。【创新/局限】本文的创新性在于使用语义代替词语,从语义层面 对相关性网络进行分析。同时,首次引入融合知网义原信息的词向量用于关键词抽取工作。局限性在于抽取方法 依赖知网信息,只适用于中文文本抽取。  相似文献   

5.
庞良健  李晗  王庆林  徐新胜 《科技通报》2021,37(10):59-65,70
针对现有的评价方面抽取方法无法充分利用评论文本中字词包含的复杂语义问题,提出了一种融合多层次语义的网络评价方面抽取模型.首先将卷积神经网络(CNN)训练的字符表示与Word2Vec预训练的词向量进行拼接,构建字词融合的特征表示,利用注意力机制对字词融合的特征表示进行重要程度标识,获得融合注意力的特征表示;构建由CNN和双向长短期记忆网络(BiLSTM)组成的混合神经网络,利用CNN的强学习能力提取字、词的局部语义特征信息,利用BiLSTM全局特征提取能力捕捉字、词之间长距离的上下文语义信息,实现多层次语义融合,最后利用条件随机场学习标签之间的约束条件,输出评论文本最优的序列标注结果,并以酒店评论文本为实验数据集,对所提模型与方法进行可行性和有效性验证.结果表明:本模型具有更好的评价方面抽取效果,可以为基于文本的评价研究与分析提供优质的数据源.  相似文献   

6.
中医医案数据库的构建和数据处理研究   总被引:3,自引:0,他引:3  
探讨中医医案数据库的构建,寻找对医案数据库进行规范化处理的可行性方法.针对医案文献数量巨大,收录散杂的问题,提出了对历代医案进行整理,建立数据库的方法.由于针对词性标注容易引起语义缺失的问题,提出了以语义标注作为医案信息抽取规则的方案.研究表明,基于语义标注的医案信息抽取方式有一定的可行性和适用性.  相似文献   

7.
[目的/意义]基于知识元理论对水书习俗非遗资源知识元进行知识抽取与组织,助力水书习俗非遗资源的开发与利用。[方法/过程]构建水书习俗非遗资源知识元语义描述模型,基于知识元语义模型与深度学习技术对水书习俗非遗资源进行知识元抽取,并对水书习俗非遗资源进行细粒度知识组织与可视化研究。[结果/结论]实现水书习俗非遗资源多维知识关联关系的揭示,促进了水书习俗非遗资源的传承、开发与利用。  相似文献   

8.
汉语信息抽取中事件的定位与分类   总被引:1,自引:0,他引:1  
事件抽取是信息抽取的基本任务之一,而对文本中的事件准确定位和分类是保证事件抽取质量的前提.使用向量空间模型来表示事件描述片段的特征,并分类计算特征词的重要度,最后对文本中的事件片段进行定位和分类.试验结果表明该方法能够对文本中的事件片段进行较为准确的定位、分类,因此对于事件抽取任务的前期处理具有重要价值.  相似文献   

9.
【目的/意义】本文提出了借助知识图谱的知识互联和可视化分析等功能,为公共危机事件智能治理提供知 识支撑的观点。【方法/过程】以“港独”为例,从新华网、人民网、中国新闻网等“港独”新闻语料中抽取实体,构建公 共危机事件知识图谱模型。从知识图谱本体构建和实体数据填充两个方面,对“港独”知识图谱的实体抽取、关系 抽取、知识融合、知识加工和知识推理等构建环节进行重点论述和实践,最后,利用Neo4j数据库实现知识存储,生 成的“港独”知识图谱。【结果/结论】通过Cypher语句对“港独”知识图谱进行查询,能够呈现可视化语义网结构图, 利于知识隐重发现。【创新/局限】本文的创新之处在于把知识图谱技术应用于公共危机事件治理中,为其智能查 询和决策分析提供数据支持。在今后实践中,数据源的选取不必局限于网络新闻语料,还可以适当对“港独”人员 的微博、微信、论坛中的信息进行采集和抽取,以此扩大知识关联,从而更为全面、高效地进行公共危机事件智能 治理。  相似文献   

10.
【目的】梳理国内外语义出版的理论研究进展,以厘清下一步语义出版的理论研究方向。【方法】 围绕语义出版的对象范畴、表现形式、实现方法、价值功效等理论要素对中外文献进行统计、对比和综合分析,总结现有理论研究的共性特征及其中存在的问题。【结果】 语义出版的研究对象从以学术期刊为载体的论文资源,扩展至图书、学位论文等形式的文献型学术资源,乃至数据型、媒体型、工具型学术资源;表现形式侧重于不同资料、事件、人物、术语、记录等实体对象的抽取、链接和集成,构建科学知识的语义关系及其构成的知识网络;实现方法涉及语义出版框架模型、语义标准、语义技术、语义工具、语义描述等;具有知识价值、商业价值和产业价值。【结论】 理论研究层面的语义出版在概念界定、方法适用性、服务体系等方面还需进一步探讨。  相似文献   

11.
事件抽取是指识别文本中描述在某个时间(或时间段),某个地点或地区,由一个或多个角色参与的某动作的事件。首先对我国关于事件抽取研究的文献进行了总结,给出事件抽取的主要方法及模型。并针对文献中对这些事件抽取方法的效果进行统计分析,探讨各种事件抽取方法或模型的效果及适用性。经过对现有研究文献的统计,结论为:当前有关事件抽取的研究仍在继续,主要集中于金融资讯、会议信息、突发事件、个人简历等来自网页、微博微信等自媒体信息或军事法律等专业文件的事件抽取,所采用的算法包括SVM、CRF、ME、模式匹配、聚类算法等;CRF算法应用与个人简历事件抽取效果最好,采用模式匹配算法的有效文献量相对较多,触发词方法的综合效果较优于模式匹配算法,但较多领域存在触发词算法的查全率较低的问题。  相似文献   

12.
将大量中英文对照的专利文本作为平行语料库,提出一种自动抽取中英文词典的方法.先利用外部语义资源维基百科构建种子双语词典,再通过计算点互信息获得中英文词对的候补,并设置阈值筛选出用于补充种子词典的词对.实验结果表明:对英语文档进行单词的短语化有助于提高自动抽取结果的综合性能;另一方面,虽然通过句对齐方式可以提高自动抽取结...  相似文献   

13.
基于HNC理论的期刊文献知识元检索   总被引:1,自引:0,他引:1  
针对期刊文献知识元提出了一种基于HNC理论的六元组表示方法,以及在文献结构分析基础上依据依存分析和HNC理论进行知识元的抽取。利用HNC符号的领域信息以及最大熵模型建立的分类器,对所抽取的知识元进行分类并存储,最后通过两阶段检索实现知识元的语义检索。  相似文献   

14.
【目的/意义】旨在将社会化问答社区中碎片化的答案关联起来,并为用户提供不同主题的高质量答案和更 好的知识服务。【方法/过程】首先,本研究利用Doc2vec算法计算答案之间的语义相似度,并构建答案语义网络。其 次,利用Louvain算法对答案语义网络进行社区划分,并用TextRank算法抽取各个主题下文档的关键词,使用词云 对每个主题进行可视化展示。最后,利用PageRank算法对聚类后的答案语义网络进行排序,从而实现答案文档的 主题聚合和排序。【结果/结论】本研究使用“知乎”上的问答数据进行了实证研究。结果表明,所提出的答案聚合和 排序方法不仅能够向用户直观地展示答案之间的关联强度和各个主题答案的主要内容,还能够为用户提供分主题 的答案排序结果,自动为用户筛选高质量的答案。【创新/局限】创新性地提出了答案语义网络,并基于答案语义网 络,提出了一种集聚合、主题可视化和排序于一体的答案知识组织方法。  相似文献   

15.
[目的/意义]图书评论是出版社、图书馆和用户研究读者观点的重要线索,评论特征抽取研究是提高图书评论观点精准挖掘效率和准确率的基础性工作。[方法/过程]分别从评论特征抽取研究和图书评论特征聚类、语义表示、隐性特征抽取的典型方法等方面对国内外研究现状进行客观分析,梳理相关领域研究发展脉络和趋势。[结果/结论]指出图书评论特征抽取效率和准确率的提高需要考虑特征聚类、语义表示和隐性特征抽取等关键问题。  相似文献   

16.
实体关系抽取是指从文本中发现两个实体之间的关系。提出一种新的基于语义核的中文实体关系抽取方法,在通常的序列核中嵌入语义信息,然后用改进后的k均值算法进行聚类。实验结果证明我们的方法是比较有潜力的。  相似文献   

17.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

18.
语义Web上DC元数据的描述及抽取技术   总被引:3,自引:2,他引:3  
郭瑞华  张玉莉 《现代情报》2005,25(6):212-214
本文对语义Web上DC元数据的描述方法进行了分析研究。指出经XML和RDF/XML描述后的DC元数据具有了语义标注,在网络资源抓取器、XML解析器和XML包扫描器等协同工作下,可实现语义网上数据的自动抽取功能。  相似文献   

19.
【目的/意义】事件角色填充是浅层语义分析的一种方法,文章研究的目的是将句中与核心词有依存关系的 句法成分进行标注,确定其在事件框架中充当的角色类型,为语义检索提供依据。【方法/过程】通过对语义框架和 语法知识的介绍,提出了基于句法依存分析的角色填充思路和技术。【结果/结论】通过“灾难场景”框架下的“森林 火灾”事件 为例,用最大熵算法对填充过程进行了说明,例证了方法的有效性。  相似文献   

20.
从在线评论文本内容出发,抽取事件评论中的共现特征词集合,提出了一种基于共现特征词的网络舆情相关度计算方法,并和传统的计算方法进行比较。利用“郭美美事件”、“李刚之子事件”和“李天一事件”等六大网络舆情热点事件作为案例,并结合搜索引擎关注度对相关度在网络舆情事件波及影响方面进行分析。结果表明,该算法能更有效度量舆情之间的相关程度,为网络舆情中相关事件波及影响分析提供了依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号