首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
范少萍  郑春厚  王娟 《情报科学》2012,(2):196-199,205
利用网格技术与语义网技术,结合知识网格和文本资源的特点,在知识网格环境下研究了文本分类问题。首先分析了知识网格环境下文本资源要进行合理有效的分类需要解决的关键问题,并以此为基础,构建了知识网格环境下的文本分类模式。该模式主要包括:语义互联模块、元样本集成模块、文本动态更新模块、文本分类模块。此模式可以对后续在知识网格环境下研究文本分类能有所指导与借鉴。  相似文献   

2.
简要介绍组织机构文本信息资源建设管理有关情况,以及在信息过滤、信息检索、信息分类、信息抽取、数据挖掘等文本信息处理技术方面的应用现状;针对目前存在的问题提出进一步解决方案.对组织机构文本信息资源的开发利用提出新的发展思路;最后论述文本信息处理技术对提高组织机构信息资源的应用服务水平方面将起到至关重要的作用.  相似文献   

3.
【目的/意义】为在线医疗问诊平台中的医生自动生成高质量标签,更好地服务于对医生资源的分类、检索和管理。【方法/过程】基于在线问诊文本信息,提出了结合时间周期特征与文本主题特征的医生标签自动生成算法。首先根据医生相关文本信息提取关键词生成候选标签,然后从患者问题文本和医生回答文本两个方面进行LDA主题模型训练,按时间周期挖掘出问题文本和回答文本的主题特征,对候选标签进行质量控制;最后经标签加权混合后得到最终的医生标签。【结果/结论】实验结果表明,该标签自动生成算法能够反映出医生标签生成的动态性,能够准确生成符合医生专业知识特征的高质量标签,具有较好的标签生成效果。  相似文献   

4.
网络文本分类是数据挖掘技术的重要组成部分,是从互联网中获取有效信息资源的重要方式之一.本文论述了网络文本分类及其技术,通过对具有主题的大量网络文本的有效分析和挖掘,使网络文本分类技术在自主网络信息定制和自动信息获取中得到更加广泛地应用研究.  相似文献   

5.
6.
Web文本挖掘技术研究   总被引:1,自引:0,他引:1  
WWW上的信息量迅猛增长,Internet成为一个拥有大量Web文本资源的巨型数据库。大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战。分析了Web文本的特点、Web文本挖掘的一般流程以及Web文本挖掘中的关键技术。  相似文献   

7.
渔业文本分类是充分利用渔业信息资源的有效途径。针对中文文献资料的结构特点,提出一种结合特征词权值和支持向量机(Support Vector Machine,SVM)的渔业文本分类方法,利用向量空间模型(Vector Space Model,VSM)构建文本向量空间,并结合特征词权值计算文本特征向量中的各特征项,将构建的文本向量送入SVM进行渔业文本分类。采用中国知网下载的标准文档进行了实验测试,并考察了准确率和召回率两个指标,实验结果表明,文章提出的渔业文本分类方法具有较好的分类效果。  相似文献   

8.
本文从跨文化交际理论角度,对广西北海市旅游汉英翻译现状和问题进行了调查研究:北海作为一座沿海开放城市和历史文化古城,具有丰富的旅游资源,但北海的旅游接待汉英翻译文本数量寥寥无几,质量参差不齐,亟需改进。本文还进一步总结出要想翻译出好的旅游文本,不但要求译者具备良好的翻译技能,而且要求译者应该充分考虑到目的语与原语文化的差异。  相似文献   

9.
网络检索中的数据挖掘技术理论与应用   总被引:1,自引:0,他引:1  
网络数据挖掘采用数据挖掘信息处理技术,从网络信息资源中发掘用户所需信息。文章在分析互联网文本信息特征的基础上,揭示了文本数据挖掘的目标样本的特征提取、分词处理与文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。  相似文献   

10.
个性推荐系统在数字图书馆中具有良好的发展和应用前景,逐渐成为电子资源智能处理的一个重要研究内容。提出了一种基于遗传算法的改进WEB数据挖掘方法,同时将该方法应用到数字图书馆中电子资源的个性化推荐中。实验结果表明,本文方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快;本文方法极大地提高了文本挖掘系统的分类效率。  相似文献   

11.
文本自动分类是文本信息处理中的一项基础性工作。将范例推理应用于文本分类中,并利用词语间的词共现信息从文本中抽取主题词和频繁词共现项目集,以及借助聚类算法对范例库进行索引,实现了基于范例推理的文本自动分类系统。实验表明,与基于TFIDF的文本表示方法和最近邻分类算法相比,基于词共现信息的文本表示方法和范例库的聚类索引能有效地改善分类的准确性和效率,从而拓宽了范例推理的应用领域。  相似文献   

12.
基于SVM与KNN的中文文本分类比较实证研究   总被引:1,自引:0,他引:1  
本文详细介绍了中文文本分类过程以及SVM和KNN两种方法在中文文本分类中的具体步骤,给出了中文文本分类的模型。通过实验对SVM算法和传统的KNN算法应用于文本分类效果进行了比较性实证研究。研究表明,SVM分类器较KNN在处理中文文本分类问题上有更良好的分类效果,有较高的查全率和查准率。  相似文献   

13.
王亚民  刘洋 《情报杂志》2012,31(8):161-165
针对含附件文本利用率低的缺陷,为了提升附件文本分类的查全率和查准率,从两个不同角度分别提出了基于密度的BP神经网络附件文本分类算法,对组织中带有附件的文本分类进行改进.实验表明,算法在一定程度上提高了含附件文本的利用率.  相似文献   

14.
Automatic text classification is the task of organizing documents into pre-determined classes, generally using machine learning algorithms. Generally speaking, it is one of the most important methods to organize and make use of the gigantic amounts of information that exist in unstructured textual format. Text classification is a widely studied research area of language processing and text mining. In traditional text classification, a document is represented as a bag of words where the words in other words terms are cut from their finer context i.e. their location in a sentence or in a document. Only the broader context of document is used with some type of term frequency information in the vector space. Consequently, semantics of words that can be inferred from the finer context of its location in a sentence and its relations with neighboring words are usually ignored. However, meaning of words, semantic connections between words, documents and even classes are obviously important since methods that capture semantics generally reach better classification performances. Several surveys have been published to analyze diverse approaches for the traditional text classification methods. Most of these surveys cover application of different semantic term relatedness methods in text classification up to a certain degree. However, they do not specifically target semantic text classification algorithms and their advantages over the traditional text classification. In order to fill this gap, we undertake a comprehensive discussion of semantic text classification vs. traditional text classification. This survey explores the past and recent advancements in semantic text classification and attempts to organize existing approaches under five fundamental categories; domain knowledge-based approaches, corpus-based approaches, deep learning based approaches, word/character sequence enhanced approaches and linguistic enriched approaches. Furthermore, this survey highlights the advantages of semantic text classification algorithms over the traditional text classification algorithms.  相似文献   

15.
The world-wide use of digital storage and communications devices is increasing the need to make texts available in multiple languages. In this article we explore the possibility of storing a compressed form of a translated version of a text, taking advantage of the availability of the original text. The original text provides some of the semantic content of the text that is to be compressed, and therefore makes it possible for compression to be more efficient than if that information were not available. We begin with an experiment to evaluate the information content of a text when a parallel translation is available. This is achieved by having human subjects guess texts letter by letter, with and without a parallel translation. The perceived information content of a text can be determined from the way subjects make their guesses. The design and results of this experiment are described. The main conclusion is that while the text is considerably more predictable with the aid of a parallel translation, there is a surprising amount of information introduced by the translation. Insights obtained from this experiment are then applied in the design of a mechanical system for compressing parallel texts. The system stores one translation of a text intact, and then compresses further translations of the text with the aid of the original. The method described is able to compress texts significantly better than is possible without the aid of a parallel text. Aspects of the design are also applicable to future compressors that might take advantage of the semantic content of a text to obtain better compression.  相似文献   

16.
雷迪 《现代情报》2010,30(8):36-38
著作权问题是全文数据库建设中不可回避的问题,本文研究了学位论文全文数据库、特色馆藏文献全文数据库制作和服务中所涉及的著作权问题,以及在特色数据库建设中采用网络搜集全文信息所面临的著作权问题,并就此三类问题提出了一些避免侵权的建议,以达到既遵守著作权法规又使全文数据库顺利进行建设、服务。  相似文献   

17.
张小艳  宋丽平 《现代情报》2009,29(3):131-133
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。  相似文献   

18.
文本分析(也称“内容分析”)是各国情报部门和科研人员广泛采用的一种分析文本的方法。文本分析通过将定性的,半结构性的文本编码,使定性的文本可以用定量的方法来分析,从而大幅提高分析的可靠性。通过考察文本分析方法的独特优势和基本步骤,探索该方法在竞争情报分析中的应用。文本分析方法在战略集团分析、竞争对手假设分析、竞争对手目标分析、竞争对手战略分析和竞争对手使命分析等竞争情报领域都有独特的优势。  相似文献   

19.
声乐作品文本的多元性、综合性是构成其特殊性的重要元素。按照解释学的观点,声乐作品文本也具有敞开性,一千次表演,会有一千次不同的显现。由于声乐作品文本的特殊性,使它对声乐表演主体的声乐技术,情感表达都会有不同于其他艺术门类的特殊的意向性。了解并体悟这一点对声乐表演艺术的提高是有裨益的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号