首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

2.
[目的/意义] 为投稿论文遴选出合适的审稿专家是论文发表过程中关键的一环。随着投稿论文和候选评审专家数量的持续增长,人工指定评审专家的方法在准确性和公平性上的弊端日益显露出来。因此,为进一步提高专家评审的客观性和准确性,笔者从专家知识与专家权威度两个维度对专家建模,并以此为依据为不同主题的投稿论文遴选推荐评审专家。[方法/过程] 首先分析专家知识以及投稿论文的研究内容,并提取两者涉及的多个子研究主题;然后,计算专家知识对投稿论文子主题的覆盖度,并提出融合主题特征与时间特征的权威度算法TTAM来分析专家权威度;最后,提出融合主题覆盖度和专家权威度的专家推荐框架CAUFER,综合考虑覆盖度和权威度两个因素为投稿论文推荐合适的评审专家。[结果/结论] 实验结果表明,与经典的基于向量空间模型、语言模型和作者主题模型3种专家推荐算法相比,笔者提出的算法能够较好地提高专家与投稿论文的匹配度,并可据此追踪专家权威度的变化,刻画专家在特定主题下的权威度,进一步提高专家推荐的准确性和科学性。  相似文献   

3.
文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量,给出Web文本相似度的计算公式并实现基于语义相似度的KNN算法.结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少计算量并提高了分类精确度.  相似文献   

4.
针对现有基于语词的术语相似度典型算法存在的问题,提出了将WordNet和编辑距离计算应用于术语词语匹配过程,并根据术语修饰词的位置赋予特征权重的术语相似度改进算法.和已有算法相比,新的算法在三个方面有所改进.首先,在术语中心词匹配过程中引入WordNet的同义词、近义词检索功能,实现中心词之间的语义匹配;其次,将术语词语的直接匹配改进为基于编辑距离计算的模糊匹配;最后,在计算过程中充分考虑了术语修饰词与中心词之间的距离对修饰词权重分配的影响因素.针对新算法提出了具体的实现步骤,并选取基因工程领域实验数据对改进算法和现有典型算法进行对比评测.实验证明,每种改进方法在单独测试时效果优于或至少不低于Nenadic算法.基于三种改进方法的综合计算方法在计算效果方面具有明显提升.  相似文献   

5.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

6.
由于时间、地点、目的、知识以及构造者的不同,导致即使对同一问题,本体的构造也会有很大的差异,这样就造成本体间很难共享和重用.而本体映射是解决本体异构、在不同本体间建立语义关联的一种有效的方法.针对目前本体映射方法中概念相似度计算所存在的问题,本文提出一种综合映射方法,即先通过分类将大本体划分为若干小型的本体树,再对小本体树分别从概念名称、实例及结构分别计算概念相似度并综合,这样大大简化了相似度计算的复杂度,也提高了准确性、全面性.最后以国防工业本体和中文飞机本体为例做了实验并对算法做了分析.  相似文献   

7.
首先说明利用加权XML数据模型分别得到标准XML参考实例和XML数据实例的方法,并对DTD约束修饰符的表达方法进行介绍。其次,详细阐述相似度算法的实现方法,重点说明在XML数据实例中寻找与标准XML参考实例的匹配节点算法和计算标准 XML参考实例与XML数据实例的相似度算法。最后,对相关实验及其结论进行总结。  相似文献   

8.
语义链接构建原则包括链接来源确定、链接对象评价与链接属性选择,而链接类型则分为概念间的词汇型链接与实体间的关系型链接。基于此,图书馆可利用SPARQL查询从目标数据集中选择满足链接要求的术语变量,或通过基于本体映射的相似度计算在概念间构建词汇型链接。另一方面,关系型链接构建可利用SPARQL查询寻找与馆藏存在语义相似性的实体并判断其语义关系,或利用字符串相似度匹配对资源文本特征属性进行精确匹配,从而实现图书馆与外部关联数据集的链接构建与资源共享。  相似文献   

9.
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法.首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要.实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高.  相似文献   

10.
在对当前术语语义相似度集成相关研究进行分析的基础上,针对典型集成方法存在的不足,构建了基于多种测度的术语相似度集成计算模型.首先对集成计算模型的设计思路进行论述;其次提出了在模型中应用的相似度网络初始化算法、术语语词相似度改进算法、术语语境模板相似度改进算法以及基于搜索引擎的术语相似度改进算法,并实现了该集成计算模型;最后对该模型中所使用的各种相似度测度计算性能指标以及完全计算SVM集成和条件计算SVM集成性能指标进行对比评测.实验证明,该计算模型的F1综合性能达到0.8797,并能缩短32%的计算时间,有效提升了术语相似度综合计算性能.  相似文献   

11.
针对科技文献特征词在语义上的层次特性,提出基于概念泛化的内容过滤推荐算法.采用矢量空间模型作为用户兴趣偏好和科技文献特征的描述模型;在比较科技文献特征与用户兴趣偏好的相似程度时,首先从字符层面比较科技文献特征词与用户兴趣特征词,然后在基于ODP目录结构的用户兴趣偏好概念泛化树上对字符不相同的特征词对进行语义比较,并修正特征词权重,以避免遗漏"字符不同,但语义相似"的关键词对.理论分析和实验结果表明,该算法能够更加全面、准确地推荐科技文献对象.  相似文献   

12.
期刊审稿过程中非统计专业审稿人很难对统计结果进行审核,导致论文中的统计学错误很多。基于Excel的统计分析系统,不需要专业的统计学知识,只要了解一般统计学常识就能方便使用,特别适合期刊编辑部编辑和审稿人员审核稿件中常见的统计学问题。实际应用结果表明,该系统非常实用,对减少期刊论文中的统计错误大有裨益。  相似文献   

13.
医学论文统计学报告水平评价量表的研制及其意义   总被引:3,自引:0,他引:3  
刘清海  方积乾 《编辑学报》2008,20(3):278-279
作为实时、内部评价医学论文科学水平的一部分,在系列研究的基础上研制出含27个项目的医学论文统计学报告水平评价量表。经过信度和效度的外考核,该量表在不同人之间评价信度较好,对不同级别杂志的区分效度也好,可用于医学论文的评价。本量表适用于医学编辑对未发表论文科学水平的实时内部评价,也适用于同行或管理部门对已发表论文的评价,其适用对象是有对照的临床研究论文。  相似文献   

14.
基于个体概念语义关系的微内容发现研究   总被引:1,自引:0,他引:1  
传统的超文本标记语言只能显示而不能使计算机理解页面信息,导致传统的基于关键词的检索工具的查准率、查全率和智能化程度都较低.虽然语义网可以解决计算机对页面信息的理解问题,但以往基于本体的语义匹配算法通常是面向类概念的,在精度上不能满足微内容的发现需求.本文面向微内容检索应用,在分析了个体概念的语义特征的基础上,提出了基于语义关系的个体匹配规则、索引结构和相应的语义检索算法.最后,通过实验验证,证明了基于个体语义关系的聚合机制具有更高的聚合细腻度,所提出的语义检索算法在面向微内容的检索应用中是有效的.  相似文献   

15.
于红艳 《编辑学报》2020,32(5):522-526
多学科交叉稿件的出现对科技期刊编辑遴选“小同行”审稿人提出新的挑战,仅依据一级学科选择审稿专家将难以满足精准审稿的需求。本文以图像处理这一多学科交叉研究方向为例,从专家与稿件研究方向匹配度的角度出发,通过详细阐述稿件送审实例,总结归纳多学科交叉稿件的送审技巧,包括:查作者信息、查参考文献、通读来稿全文内容、借助送审工作总结库、间接途径匹配专家、多送2个多学科专家,并提出送审前的准备工作,如梳理学科框架、及时做好已送审稿件的归纳总结、要求作者标出所涉及细分学科方向等,以供同行参考。  相似文献   

16.
论述影响期刊审稿人选择的因素,指明科技期刊增加高质量审稿人的途径,阐述科技期刊维护与审稿人合作关系的方法.所提建议有助于科技期刊更好地建立审稿人队伍,并促进科技期刊的健康发展.  相似文献   

17.
为提高医学文献检索的效率和检索结果输出的有效性,快速客观地为科研人员提供高信度、低冗余的参考文献,实现检索结果按相关度排序输出,就基于向量空间模型的文献相关度计算方案进行探讨,提出基于相关度的医学文献聚类分析和相关度排序。  相似文献   

18.
[目的/意义] , 从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小, 用于满足在线论文相似性检测秒级响应需求。[方法/过程] 采用分治法策略, 对已知文本句集进行基于正交基的软聚类预处理, 并对软聚类后的每个簇建立倒排索引。接着在快数据处理平台Spark上执行相似性检测, 采用字符结合词组形式计算出待检测论文与已知文本的相似度大小。[结果/结论] 通过200万规模的已知文本集实验结果显示, 综合4种类型的待检测论文, 所提出的倒排索引结合软聚类算法准确率P为100.0%, 召回率R为93.6%, 调和平均值F为96.7%。调和平均值F比相似性检测算法LCS高10%左右, 比Simhash算法高约23%。在检测速度上, 对于一篇字数为5 000左右的待检测论文, 检测时间约为6.5秒, 比Simhash算法快近300倍, 比LCS算法快约4 000倍。此外, 实验结果还表明基于Spark的分布式并行相似性检测算法具有较好的可扩展性。  相似文献   

19.
刘凤华  席慧 《编辑学报》2012,24(4):350-352
通过对《中华微生物学和免疫学杂志》部分稿件退修情况的统计分析,论述科技期刊文稿退修的必要性,即:退修是联系审稿专家、编辑和作者三者的桥梁;可提高论文的学术价值;使论文在格式上更规范;提高作者写作水平,储备优质作者资源;提升编辑的业务素质,培养编辑的审稿能力。认为退修时应注意以下问题:重视政治问题;切忌照本宣科;叙述明确,主次分明;尊重作者,体现修养;注明修回日期。  相似文献   

20.
如何利用中国期刊网审稿   总被引:36,自引:9,他引:27  
王淑华 《编辑学报》2001,13(4):225-226
学科的交叉和渗透给科技期刊编辑初审稿件和送审稿件带来了很大困难。利用中国期刊网有助于稿件的初审,节约初审的时间和精力,同时可以找到合适的审稿专家。举例说明该过程常用的几种检索方式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号