首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 533 毫秒
1.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

2.
由于知识的粒度性反映了人类认识世界的特征,本文提出一种基于模糊等价关系的文本多粒度划分方法,以模糊等价关系构建文本信息颗粒,通过模糊等价关系λ截集阈值的控制得到信息的文本多级粒度划分,进一步结合聚类主题词识别方法确定各级信息颗粒主题词之间的包含关系,为多粒度知识服务基于主题的导航提供基础.实验结果证明了该方法的有效性.  相似文献   

3.
针对中文短文本自身词汇个数少、描述信息弱的缺陷,引入特征扩展的方法辅助分类。借助网络知识库维基百科抽取相关概念,并采用统计规律与类别信息相结合的方式计算概念间相关度,建立语义相关概念集合,对短文本的特征向量进行扩展,从而有效补充短文本的语义特征。对比实验表明,基于维基百科的短文本分类方法能够提高短文本分类的效果。  相似文献   

4.
KNN算法是文本分类中广泛应用的算法.作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能.合理的样本剪裁以及样本赋权方法可以提高分类器的效率.提出了一种基于样本分布状况的KNN改进模型.首先基于样本位置对训练集进行删减以节约计算开销,然后针对类偏斜现象对分类器的赋权方式进行优化,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN文本分类算法提高了KNN的分类效率.  相似文献   

5.
将神经网络集成思想引入WEB文本分类领域,构造一个用于Web文本分类的多BP神经网络集成模型;详述模型的设计思路与结构框架,并分别在公有的英文数据集、实际的中文数据集上进行分类实验;与经典的SVM模型、KNN模型相比,神经网络集成模型具有更高的分类精度,且对于训练样本集规模具有更好的鲁棒性,不失为一种高效的文本分类新方法,研究其在文本分类领域的应用将是一个有前景的方向。  相似文献   

6.
文本特征降维对文本分类的精确性有着非常重要的影响.本文针对传统的TF-IDF没有考虑特征项的类间分布状况以及对类属低频词的抑制现象、MI在训练样本类别分布偏斜条件下的不足问题分别进行了改进,进而提出了一种基于类别的组合型文本特征选择算法.随后的文本分类试验表明,本文提出的加权模型相比较于传统的TF-IDF以及MI方法可以有效提高文本分类的精度.  相似文献   

7.
多类多标签汉语文本自动分类的研究   总被引:9,自引:0,他引:9  
本文提出了一种高效的汉语文本分类方法 ,并在实验中收到了良好的效果。由于汉语文本的特殊性 ,在训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类 ,分类算法采用改进的Boosting算法。实验表明 ,在多类多标签的汉语文本特征提取和文档分类中 ,该算法收敛快、准确性高、综合效果较好  相似文献   

8.
从题名抽取关键词,把题名作为基于本体自动分类的文本主体,实现海量科技论文高效、精准地分类,已经成为图书馆事业发展的重要课题。本文利用文本内部词汇的语义关联特性,在高频词和隐含主题两个不同粒度层面,构建了基于BTM模型的题名信息自动分类方法:首先从细粒度层面进行词频统计,提取领域高频词;随后从粗粒度层面进行BTM模型分析,得到主题关键词;之后,将两者去重合并获得领域核心词集;最后,利用SVM算法进行文本分类。该方法有效地实现了知识的快速聚类和关联自动分类,为用户提供了满意度更高的知识发现及相关扩展服务。  相似文献   

9.
张倩  刘怀亮 《图书情报工作》2013,57(21):126-132
为了解决基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出一种基于图结构的半监督学习分类方法,这种方法既能保留短文本的结构语义关系,又能实现未标注样本的充分利用,提高分类器的性能。通过引入半监督学习的思想,将数量规模较大的未标注样本与少量已标注样本相结合进行基于图结构的自训练学习,不断迭代实现训练样本集的扩充,从而构建最终短文本分类器。经对比实验证明,这种方法能够获得较好的分类效果。  相似文献   

10.
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高.  相似文献   

11.
试论信息网络对青年编辑认知方式的影响   总被引:2,自引:0,他引:2  
何先刚 《编辑学报》2008,20(2):170-172
面对网络社会冲击和数字化出版,网络时代所构筑起来的新的认知方式、生存方式和生活方式,正逐渐影响着当今青年编辑的认知、情感、思想和心理。从认知心理学的角度,通过信息网络对青年编辑认知结构的深化、信息网络对青年编辑认知范围拓展和认知方式的多样化、信息网络对青年编辑思维的新变化等3个方面,论述信息网络的普及和迅猛发展对青年编辑认知方式的影响。  相似文献   

12.
以典型网站的商品展示页面为研究对象,借助眼动仪实验和问卷调查来揭示Web环境下消费者认知风格与商品信息关注程度之间的复杂关系,将消费者的浏览过程表达为具有不同认知风格的消费者(具有不同的经验水平)对页面(具有不同的页面风格)上不同功能区域的关注。据此提出两组基本假设,并通过对120份有效样本的分析,验证上述假设。研究表明,认知风格差异会影响消费者对商品信息的关注程度,而页面风格、网络熟悉程度和购物经验会影响认知风格的效应。
  相似文献   

13.
以概念格理论为基础,在形式概念分析的基础上,提出以粒度概念分析(GCA)的方法进行文献关键词分析,并针对Ontology领域开放存取文献的关键词,构建不同粒度概念格。通过基于粗细不同粒度概念格的挖掘,对Ontology领域相关文献进行领域高频关键词和相关低频关键词的分析,从而揭示和呈现Ontology领域相关知识的结构和内在关联,以期探索一种基于概念格的文献关键词分析的新途径。  相似文献   

14.
基于多元知识结构的图书馆学人才培养模式研究   总被引:2,自引:0,他引:2  
信息化社会不仅使图书馆工作内容和服务方式发生了重大变化,同时对图书馆学专业人才培养提出了更高的要求。本文在分析了我国图书馆学专业教育所处的新环境和新问题后,提出了基于多元知识结构的图书馆学人才的培养模式及其实现途径。  相似文献   

15.
青少年网络信息查询行为影响因素实证分析   总被引:2,自引:0,他引:2  
采用实证研究方法,对青少年的认知风格、年级和任务类型因素对其网络信息查询效果和具体查询行为的影响进行探究。结果表明,青少年所在的年级和任务类型对其查询效果和行为有较大影响,高中生的表现整体较初中生好,完成不同任务时青少年的信息行为有较大差异;认知风格仅对点击网页内超链接次数有所影响。  相似文献   

16.
国内外专利挖掘研究(2005-2014)综述   总被引:1,自引:0,他引:1  
在中国知网、万方数据和Web of Science进行检索,获得72篇相关中文文献和98篇英文文献,并从中选出66篇进行综述。专利挖掘研究包括术语抽取、聚类、分类、以复杂网络为基础的方法、以时间为基础的方法和基于专利挖掘的技术研究等6个主题。尽管近10年来这一领域发展较快,但是部分研究也存在试验验证不精确、基于IPC的自动分类效果不好、所要解决的问题不明确且局限于方法应用和粒度粗糙等问题。专利挖掘研究应该注重发现问题,而非简单地应用方法。  相似文献   

17.
数字图像的语义描述与标注是解决图像检索中语义鸿沟问题的关键。由于缺乏面向领域的有效的数字图像描述方法规范,基于图像底层视觉特征的机器标注和基于专家知识的人为标注的标注结果都存在标注信息质量不高和结果不统一的问题。针对这一现实问题,本文基于图像元数据和信息需求理论,针对敦煌壁画数字图像这一特定文化遗产领域,提出了语义描述框架和领域主题词表相结合的数字图像内容语义描述方法,详细阐述了语义层次及其相互关系。同时,从图像语义描述粒度的角度讨论了语义粒度大小对标注成本的影响,以及该语义描述框架的可移植性问题。图4。表5。参考文献25。  相似文献   

18.
安徽省立图书馆在创建过程中,以读者需求为中心,以藏书建设为核心,加强文献的搜集和整理,形成富有特色的馆藏。古本旧籍、本省名家文集、安徽方志、金石文献和新书报刊充盈庑间,是文献的渊府。安徽省立图书馆还立足学术,引导学风,造就了一批知名的学者,是学术的渊薮。  相似文献   

19.
信息偶遇研究元人种志分析   总被引:3,自引:0,他引:3  
周佩  黄春燕 《图书情报工作》2014,58(14):115-120
采用元人种志方法对12项信息偶遇原始研究进行综合集成,回答信息偶遇的发生要素、发生流程、效果、情境对信息偶遇的影响4个问题。提出信息偶遇的全景模型,认为信息偶遇是行动者与信息、情境良性互动从而产生积极行动后果和积极情绪体验的一种信息行为方式,受到个体认知风格、认知任务、信息组织、物理和社会情境的影响。  相似文献   

20.
将本体论和语义计算的相关技术引入到网络群体性事件的主题发现研究中,并通过构建食品安全领域本体进行实证研究。实验结果表明,该方法能够有效地获取主题信息,有助于实现网络群体性事件的主题发现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号