共查询到20条相似文献,搜索用时 546 毫秒
1.
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性。本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法。本文中的计算方法都用python语言实现。通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速。 相似文献
2.
树编辑距离在Web信息抽取中的应用与实现* 总被引:1,自引:0,他引:1
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。 相似文献
3.
本文重点探讨基于编辑距离的网页相似度算法在Web 抽取系统中的应用与实现.通过结合基于URL 及编辑距离的网页结构相似度的计算方法,抽取系统在抽取过程中能够检测网页结构的变化,从而主动做出判断,选择适应规则进行抽取或通过主动学习自动扩展规则库.结构相似度计算赋予系统感知网页结构变化的能力,系统通过主动自我更新与调整,能更好地适应面向实际应用的异构资源的获取.算法的可行性和效率在原型系统中得以验证. 相似文献
4.
基于最大公共子图的文本相似度算法研究 总被引:1,自引:1,他引:0
用图结构表示文本,能更好地反映文本内部的结构特征,体现文本内的语义关系及词语在上下文中的语序关系,在此基础上,本文提出了一种基于最大公共子图的文本相似度计算方法,应用最大公共子图提取文本的公共部分,并利用最大公共子图的性质度量文本间的相似程度.最后针对分类试验结果中存在的问题,提出图模型修正方法以改进文本的表示效果,并对修正前后不同β取值下的F-Score值进行比较.修正后的试验结果表明,基于最大公共子图的文本相似度算法有着较好的分类性能. 相似文献
5.
在对当前术语语义相似度集成相关研究进行分析的基础上,针对典型集成方法存在的不足,构建了基于多种测度的术语相似度集成计算模型.首先对集成计算模型的设计思路进行论述;其次提出了在模型中应用的相似度网络初始化算法、术语语词相似度改进算法、术语语境模板相似度改进算法以及基于搜索引擎的术语相似度改进算法,并实现了该集成计算模型;最后对该模型中所使用的各种相似度测度计算性能指标以及完全计算SVM集成和条件计算SVM集成性能指标进行对比评测.实验证明,该计算模型的F1综合性能达到0.8797,并能缩短32%的计算时间,有效提升了术语相似度综合计算性能. 相似文献
6.
由于时间、地点、目的、知识以及构造者的不同,导致即使对同一问题,本体的构造也会有很大的差异,这样就造成本体间很难共享和重用.而本体映射是解决本体异构、在不同本体间建立语义关联的一种有效的方法.针对目前本体映射方法中概念相似度计算所存在的问题,本文提出一种综合映射方法,即先通过分类将大本体划分为若干小型的本体树,再对小本体树分别从概念名称、实例及结构分别计算概念相似度并综合,这样大大简化了相似度计算的复杂度,也提高了准确性、全面性.最后以国防工业本体和中文飞机本体为例做了实验并对算法做了分析. 相似文献
7.
利用web文档的半结构化信息,提出一种基于DOM的web文本分割算法。该算法充分挖掘web网页中控制网页内容结构和显示的HTML标签信息,构建HTML DOM树。首先通过改进传统的平面文本分割方法,使之适用于web文本分割;然后利用DOM树中的节点平滑平面文本分割的结果,初步实验表明该算法能有效提高web文本分割的精确度。 相似文献
8.
XML文档相似度计算方法研究 总被引:1,自引:0,他引:1
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评. 相似文献
9.
10.
基于超图结构的知识相似度计算模型研究 总被引:2,自引:0,他引:2
知识表示是知识管理问题的基础,关于知识表示的方法可以划分为基于特征和基于结构两类,其中基于结构的方法支持知识对象内部关联结构的描述,近年来受到广泛的重视,但已有研究大多以经典图论作为形式化基础,其局限性在于对多元关系知识表示上存在不足,为此本文引入了经典图的泛化--超图,并对其基本概念进行扩展,定义了超图结构以进行多元关系知识的表示,在对对应、相邻度等相关概念进行定义的基础上提出了一种基于超图结构的知识相似度计算模型,其计算步骤包括知识对象可比分析、对应求解以及相似度计算,最后通过两组实验验证了模型的有效性. 相似文献
11.
基于XML的MARC研究 总被引:4,自引:1,他引:3
本文分析了机读目录MARC在未来数字化图书馆应用的局限性,并提出了改进方案,以哈尔滨工业大学为例,对其采用的中文机读目录CNMARC格式进行了XML转换的尝试,从而使得MARC书目数据库和Internet上的非书目数据库的集成成为可能.本文的研究对于现有MARC数据在未来数字图书馆中的利用具有重要意义. 相似文献
12.
本文从传播学和社会学的视角,以定性与定量研究相结合的方法,分别从网名、聊天形式、聊天对象、聊天内容、聊天语言等方面对青少年使用QQ的情况进行了分析。 相似文献
13.
14.
15.
丁一 《现代图书情报技术》2005,21(6):26-29
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。 相似文献
16.
一、方法和步骤 档案工作为农业农村建设服务,离不开规范的基础管理.为了全面了解和掌握我区农业农村档案工作状况,1996年我们对全区农业农村档案现状进行了调查了解,全区28个乡镇、463个村、500多个重点乡村企业、40多个农业科技事业单位,其档案工作几乎等于零.针对这种现状,我们把基础建设放在首位.主要采取以下方法: 相似文献
17.
基于SOA的数字图书馆研究 总被引:2,自引:0,他引:2
SOA基于组件模型结构,采用中立接口进行程序单元之间的交互,可以构建通用的应用系统,基于SOA的数字图书馆本质上是将数字图书馆当做一个提供一系列图书馆信息服务的系统,通过各种服务组合能够实现图书馆业务流程的自动化,以灵活应对图书馆业务需求的变化,通过将孤立不兼容的图书馆信息系统和异构的信息资源以组件的方式封装成标准的服务,并经SOA总线进行服务集成,就可以以服务的方式加以利用,从而最大程度地实现信息资源的整合. 相似文献
18.
基于Ontology的文档过滤研究 总被引:2,自引:0,他引:2
区分文档过滤、信息过滤和文本过滤并介绍文档过滤技术的研究现状;提出基于Ontology的文档过滤的设想,认为其优势在于灵活、共享性好、有利于进行个性化服务等;讨论基于Ontology的文档过滤的实施过程,包括构建准备、本体构建、本体调用,重点阐述公共本体、用户本体和文档本体的构建方法以及实施过程中涉及的技术体系;最后指出今后的努力方向。 相似文献
19.
国外图书馆知识管理研究概述 总被引:1,自引:0,他引:1
郭家义 《图书馆理论与实践》2005,(2):95-97
知识管理在图书馆的研究已经进入一个发展期,为此需要对国内外相关研究进行全面与深入地调查和研究 相似文献
20.
日前,社交媒体蓬勃发展,其在带来网络变革的同时,也深刻地影响着档案工作。本文通过列举社交媒体在档案工作中的应用案例,剖析了社交媒体对档案工作的影响,借以反思社交媒体时代档案工作的机遇和挑战并指出了相关应对策略。 相似文献