共查询到20条相似文献,搜索用时 533 毫秒
1.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。 相似文献
2.
The Method of Dividing Documents into Multi-level Granules Based on Fuzzy Equivalence Relationship 总被引:1,自引:0,他引:1
由于知识的粒度性反映了人类认识世界的特征,本文提出一种基于模糊等价关系的文本多粒度划分方法,以模糊等价关系构建文本信息颗粒,通过模糊等价关系λ截集阈值的控制得到信息的文本多级粒度划分,进一步结合聚类主题词识别方法确定各级信息颗粒主题词之间的包含关系,为多粒度知识服务基于主题的导航提供基础.实验结果证明了该方法的有效性. 相似文献
3.
针对中文短文本自身词汇个数少、描述信息弱的缺陷,引入特征扩展的方法辅助分类。借助网络知识库维基百科抽取相关概念,并采用统计规律与类别信息相结合的方式计算概念间相关度,建立语义相关概念集合,对短文本的特征向量进行扩展,从而有效补充短文本的语义特征。对比实验表明,基于维基百科的短文本分类方法能够提高短文本分类的效果。 相似文献
4.
5.
将神经网络集成思想引入WEB文本分类领域,构造一个用于Web文本分类的多BP神经网络集成模型;详述模型的设计思路与结构框架,并分别在公有的英文数据集、实际的中文数据集上进行分类实验;与经典的SVM模型、KNN模型相比,神经网络集成模型具有更高的分类精度,且对于训练样本集规模具有更好的鲁棒性,不失为一种高效的文本分类新方法,研究其在文本分类领域的应用将是一个有前景的方向。 相似文献
6.
7.
8.
从题名抽取关键词,把题名作为基于本体自动分类的文本主体,实现海量科技论文高效、精准地分类,已经成为图书馆事业发展的重要课题。本文利用文本内部词汇的语义关联特性,在高频词和隐含主题两个不同粒度层面,构建了基于BTM模型的题名信息自动分类方法:首先从细粒度层面进行词频统计,提取领域高频词;随后从粗粒度层面进行BTM模型分析,得到主题关键词;之后,将两者去重合并获得领域核心词集;最后,利用SVM算法进行文本分类。该方法有效地实现了知识的快速聚类和关联自动分类,为用户提供了满意度更高的知识发现及相关扩展服务。 相似文献
9.
为了解决基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出一种基于图结构的半监督学习分类方法,这种方法既能保留短文本的结构语义关系,又能实现未标注样本的充分利用,提高分类器的性能。通过引入半监督学习的思想,将数量规模较大的未标注样本与少量已标注样本相结合进行基于图结构的自训练学习,不断迭代实现训练样本集的扩充,从而构建最终短文本分类器。经对比实验证明,这种方法能够获得较好的分类效果。 相似文献
10.
11.
试论信息网络对青年编辑认知方式的影响 总被引:2,自引:0,他引:2
面对网络社会冲击和数字化出版,网络时代所构筑起来的新的认知方式、生存方式和生活方式,正逐渐影响着当今青年编辑的认知、情感、思想和心理。从认知心理学的角度,通过信息网络对青年编辑认知结构的深化、信息网络对青年编辑认知范围拓展和认知方式的多样化、信息网络对青年编辑思维的新变化等3个方面,论述信息网络的普及和迅猛发展对青年编辑认知方式的影响。 相似文献
12.
13.
以概念格理论为基础,在形式概念分析的基础上,提出以粒度概念分析(GCA)的方法进行文献关键词分析,并针对Ontology领域开放存取文献的关键词,构建不同粒度概念格。通过基于粗细不同粒度概念格的挖掘,对Ontology领域相关文献进行领域高频关键词和相关低频关键词的分析,从而揭示和呈现Ontology领域相关知识的结构和内在关联,以期探索一种基于概念格的文献关键词分析的新途径。 相似文献
14.
基于多元知识结构的图书馆学人才培养模式研究 总被引:2,自引:0,他引:2
信息化社会不仅使图书馆工作内容和服务方式发生了重大变化,同时对图书馆学专业人才培养提出了更高的要求。本文在分析了我国图书馆学专业教育所处的新环境和新问题后,提出了基于多元知识结构的图书馆学人才的培养模式及其实现途径。 相似文献
15.
青少年网络信息查询行为影响因素实证分析 总被引:2,自引:0,他引:2
采用实证研究方法,对青少年的认知风格、年级和任务类型因素对其网络信息查询效果和具体查询行为的影响进行探究。结果表明,青少年所在的年级和任务类型对其查询效果和行为有较大影响,高中生的表现整体较初中生好,完成不同任务时青少年的信息行为有较大差异;认知风格仅对点击网页内超链接次数有所影响。 相似文献
16.
国内外专利挖掘研究(2005-2014)综述 总被引:1,自引:0,他引:1
在中国知网、万方数据和Web of Science进行检索,获得72篇相关中文文献和98篇英文文献,并从中选出66篇进行综述。专利挖掘研究包括术语抽取、聚类、分类、以复杂网络为基础的方法、以时间为基础的方法和基于专利挖掘的技术研究等6个主题。尽管近10年来这一领域发展较快,但是部分研究也存在试验验证不精确、基于IPC的自动分类效果不好、所要解决的问题不明确且局限于方法应用和粒度粗糙等问题。专利挖掘研究应该注重发现问题,而非简单地应用方法。 相似文献
17.
数字图像的语义描述与标注是解决图像检索中语义鸿沟问题的关键。由于缺乏面向领域的有效的数字图像描述方法规范,基于图像底层视觉特征的机器标注和基于专家知识的人为标注的标注结果都存在标注信息质量不高和结果不统一的问题。针对这一现实问题,本文基于图像元数据和信息需求理论,针对敦煌壁画数字图像这一特定文化遗产领域,提出了语义描述框架和领域主题词表相结合的数字图像内容语义描述方法,详细阐述了语义层次及其相互关系。同时,从图像语义描述粒度的角度讨论了语义粒度大小对标注成本的影响,以及该语义描述框架的可移植性问题。图4。表5。参考文献25。 相似文献
18.
安徽省立图书馆在创建过程中,以读者需求为中心,以藏书建设为核心,加强文献的搜集和整理,形成富有特色的馆藏。古本旧籍、本省名家文集、安徽方志、金石文献和新书报刊充盈庑间,是文献的渊府。安徽省立图书馆还立足学术,引导学风,造就了一批知名的学者,是学术的渊薮。 相似文献
19.
信息偶遇研究元人种志分析 总被引:3,自引:0,他引:3
采用元人种志方法对12项信息偶遇原始研究进行综合集成,回答信息偶遇的发生要素、发生流程、效果、情境对信息偶遇的影响4个问题。提出信息偶遇的全景模型,认为信息偶遇是行动者与信息、情境良性互动从而产生积极行动后果和积极情绪体验的一种信息行为方式,受到个体认知风格、认知任务、信息组织、物理和社会情境的影响。 相似文献