期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐健张智雄《数字图书馆论坛》2008,(9):13-18

实体关系抽取是信息抽取领域中的一项重要任务.文章在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:以模式构造和匹配为主线进行关系抽取、以词典驱动关系抽取、运用机器学习算法进行关系抽取、借助Ontology进行关系抽取以及多种方法有机结合进行关系抽取.从技术应用特点、核心模块的实现细节以及系统评测结果等方面深入分析了典型的关系抽取系统,它们包括EEES关系抽取系统、SVM关系抽取系统、T-Rex关系抽取系统、KMI语义网络门户的混合关系抽取系统,旨在为进一步构建实体关系抽取系统提供良好借鉴.该文为2008年第9期本期话题"知识抽取"的文章之一. 相似文献

2.

非结构化文本中内容对象抽取的技术方法综述

张智雄吴振新赵琦洪娜徐健刘建华《数字图书馆论坛》2008,(9):1-12

近年来,知识抽取技术在非结构化文本的处理中起到很重要的作用.文章在对当前知识抽取的相关文献、系统和项目分析研究的基础之上,提出了当前知识抽取研究中的主要抽取内容对象的分类,并对这些主要内容对象抽取的相关技术方法进行综述.主要总结了Web对象识别和集成、术语识别和抽取、主题发现和识别、概念层次关系的抽取、非概念层次关系的抽取、事实抽取、观点抽取和倾向识别等7种内容对象抽取的技术方法.并在此基础之上,对未来知识抽取的发展趋势进行了分析.该文为2008年第9期本期话题"知识抽取"的文章之一. 相似文献

3.

基于GATE的中文专利摘要的抽取

姜彩红乔晓东朱礼军桂婕张运良《数字图书馆论坛》2008,(11)

专利摘要中含有重要的内容,文章通过对"新能源汽车"中文专利摘要的阅读和分析,提出了一种专利摘要内容判别原则.并通过对国外开源抽取工具GATE和中科院分词工具ICTCLAS的学习和改进,实现了对中文专利摘要的批量抽取,为专利知识库的自动构建准备了充分的语料基础.该文为<数字图书馆论坛>2008年第11期本期话题"科技创新中的专利应用研究"的文章之一. 相似文献

4.

基于TF/IDF多因素改进算法的知识单元抽取研究

刘盛博丁堃王贤文刘则渊《情报学报》2011,10(10)

深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明.根据知识单元特性以及中文文献特点,提出一种基于词长和位置考虑的TF/IDF多因素改进算法,以<半导体光电>期刊1999~2006年数据为实例,对比分析了传统TF/IDF特征词抽取方法与改进后特征词抽取算法,分析结果表明,基于词长和位置的TF/IDF多因素改进算法显著提高了知识单元抽取效率和准确性. 相似文献

5.

基于GATE语义标注的Web信息的自动抽取 总被引：1，自引：0，他引：1

聂卉黄贵鹏《图书情报工作》2010,54(5):110-114

重点研究基于语义标注样本的Web信息自动抽取的实现方法。借助自然语言处理框架GATE,首先引入领域本体对样本网页内容进行语义标注,精确定位出待抽取的语义项,并据此将样本网页解析为S DOM树。从S DOM树中抽取出语义项的特征描述,形成样本实例并采用机器学习算法归纳抽取规则,自动生成包装器。抽取过程中,通过比较网页结构的相似度,系统能够感知网页的变化,主动学习并扩展规则库。试验结果表明,由于精确定位保障了学习样本的质量,小样本学习生成的包装器能够达到较为理想的查全率和查准率。相似文献

6.

基于领域本体的信息抽取模式生成与系统实现 总被引：1，自引：0，他引：1

马静吴一占刘思峰《情报学报》2008,27(2):193-198

面对情报工作者日益增长的从Internet中及时获取特定信息或知识的需求,本文展开了web信息抽取技术在情报领域的应用研究.目前,信息抽取模式的自动获取成为一个技术难点,本文尝试引入基于领域本体的半自动抽取模式获取算法,该方法在领域本体的概念层次关系、属性特征和实例的结构本体指导下,选择其主要特征属性为匹配目标,自动学习并获取抽取模式.利用该算法到直升机产品信息抽取,运行结果验证:该算法简单有效,获得了较高的抽取效率和较准确的抽取结果. 相似文献

7.

维基百科知网的构建研究与应用进展

王兰成刘晓亮《情报资料工作》2012,(5):56-60

文章分析维基百科中的文档、目录、超链接、重定向以及消歧义等基本元素与结构关系特点,围绕维基百科在信息检索、文本分类、文本聚类、歧义消解、查询扩展与信息抽取以及本体构建等信息处理任务中的典型解决方法与相关项目,综述和评析基于维基百科的语义知识挖掘的研究与应用方法,从整体上把握基于维基百科的知识挖掘研究现状与进展,为当前知识服务系统建设提供借鉴。相似文献

8.

当前知识抽取的主要技术方法解析* 总被引：3，自引：0，他引：3

张智雄吴振新刘建华徐健洪娜赵琦《现代图书情报技术》2008,24(8):2-11

对MnM、KIM、Text2Onto、Amilcare、Melita等具有知识抽取功能的系统所应用的技术方法进行解析。提出在当前知识抽取技术中,机器学习和自然语言分析两大思路各自得到较大发展,并且在相互融合、相互借鉴中受益。在基于机器学习的知识抽取方面,出现以自适应信息抽取（Adaptive IE）、开放信息抽取（Open IE）为代表的新思路,并且有向自动本体学习（Ontology Learning）方向发展的趋势;在基于自然语言分析的知识抽取方面,基于模式标注、语义标注的方法得到广泛关注和进一步完善,并且有向基于Ontology的信息抽取（OBIE）方向发展的趋势。此外,为减少Ontology建设成本,让人们可以利用简单的自然语言构建Ontology,基于受控语言的信息抽取（CLIE）技术也得到一定的关注。相似文献

9.

基于Ontology的大规模知识库构建技术分析

洪娜张智雄《数字图书馆论坛》2008,(9):19-25

基于Ontology的大规模知识库系统是语义内容应用的基础.文章介绍了四个有代表性的基于Ontology的大规模知识库系统,分别分析了系统的关键技术、特点和性能,并对它们的性能进行了对比分析,最后分析了当前系统的局限、挑战和趋势,以期对国内数字图书馆知识库建设有所帮助.该文为2008年第9期本期话题"知识抽取"的文章之一. 相似文献

10.

硕士研究生论文文摘

《现代图书情报技术》2006,(4):91-92,73

基于GATE的中文信息抽取系统的开发和实现李飒（中国科学院文献情报中心2003级硕士生）专业：图书馆学研究方向：广域网文献信息系统指导教师：张智雄研究馆员（中国科学院文献情报中心）相似文献