首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 281 毫秒
1.
为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果.  相似文献   

2.
[目的/意义] 在基于社会网络的用户画像研究中,针对传统用户建模难以处理复杂网络关系,群体构建多基于内容,以及群体相似度低或紧密性差的问题,提出基于网络结构和文本内容的群体画像构建方法。[方法/过程] 首先,采用卷积神经网络方法,融合网络结构和文本内容两方面特征将网络用户表示成空间向量,其次,在k-means算法基础上结合模块度计算方法,对空间向量进行聚类,然后,在爬取的中英文数据集上分别进行对比研究,最后,从中文数据集中选取1 000名重要性用户进行实例分析。[结果/结论] 实验结果表明,该方法的密度值比基于内容的方法平均增加0.105,熵值比基于结构(含基于结构和内容)的方法平均减少0.955,实例分析进一步说明文中方法的可行性。  相似文献   

3.
复杂网络软件分析与评价   总被引:1,自引:0,他引:1  
如今,复杂网络数据规模膨胀,文字和表格已无法展现其内部结构,同时妨碍了复杂网络隐藏信息的挖掘,复杂网络分析工具的产生解决了上述难题。文章归纳总结了复杂网络理论的基本内容,在广泛调查现有复杂网络处理软件的基础上,分析比较了各个软件的功能,提出量化评价指标,并对各个软件进行分析评价。  相似文献   

4.
用户视角下网络健康信息质量评价标准框架构建研究   总被引:3,自引:0,他引:3  
[目的/意义]探索用户视角下的网络健康信息质量评价指标,构建其评价标准框架。[方法/过程]选取年轻用户和中老年用户为样本,三个健康网站为实验对象,采用实验法和半结构化访谈法探索并构建网络健康信息质量评价标准框架,并使用问卷调查法对其进行修正和完善。[结果/结论]构建了由内容和设计两个一级指标及七个二级指标、七个三级指标组成的评价标准框架,并且发现不同性别和年龄的群体对网络健康信息质量评价标准有所差异。最后从健康网站本身、普通消费者、网络监管机构和医学领域工作者四方面提出相应的建议,以有助于健康信息网站的建设和网络健康信息质量的提高。  相似文献   

5.
信息构建评价初析   总被引:8,自引:0,他引:8  
文章论述了信息构建的结构、内容和特征,指出信息构件评价的复杂性并介绍了信息构建评价的指标。探讨了信息构建评价可行的方法。  相似文献   

6.
选取网络文本资源的标题识别作为切入点,除考虑多数研究关注的文本的格式信息(如字体)、位置信息等特征外,加入对标题与网页正文内容的相关度的考虑,利用科技监测项目采集到的大量历史数据作为统计分析的基础,从候选标题的可能来源和特征方面,构建基于规则的网络文本资源标题快速识别方法,并给出该方法的时间效率和识别准确率测评结果。  相似文献   

7.
[目的/意义]从定量分析和定性分析两个方面对英文网络书评进行内容挖掘,形成一套基于信息分类的英文网络书评的内容挖掘方法体系,实现多文本书评的信息整合。[方法/过程]对书评文本中句子的分类方法、关键信息的提取方法、情感分类的方法以及内容的呈现方式等几方面进行实验和改进。[结果/结论]用户评价结果表明,本文所设计的内容挖掘方法所生成的书评信息摘要在生成质量和有用性两方面都有较好的表现。  相似文献   

8.
引文用于评价学术网站的可靠性及可行性研究   总被引:3,自引:0,他引:3  
袁毅  王大勇 《图书情报工作》2005,49(3):72-75,143
针对网络学术资源内容涉及面广、形式多样且分布现象复杂,传统的同行评议方法及一些定性评价指标难以付诸实践的现状,提出一个新的评价学术网站功能的量化指标--网站被文献引用数,并通过实证分析及理论阐述论证该指标用于学术网站评价的可靠性及可行性。  相似文献   

9.
[目的/意义]作者身份识别是语言文体学的重要研究方向,利用文本特征的身份识别也是文本挖掘的重要任务。在开放和虚拟网络环境下海量信息的作者身份或发布者的识别难题和传统作者身份识别方法在处理效率和成本等方面存在的问题有待解决。[方法/过程]将复杂网络理论引入该研究领域,在利用传统文体学特征识别作者身份方法的基础上结合文本词共现网络模型及其指标特征改进相关算法,使用文本文体学特征和文本网络模型度量指标构建作者风格特征集合,通过计算文本间风格相似度进行作者识别。[结果/结论]基于复杂网络模型的作者身份识别方法可以有效的利用作者风格特征,提高识别的精度,与其他算法的对比试验表明其识别结果的准确性更高。  相似文献   

10.
基于句子的文本表示及中文文本分类研究   总被引:1,自引:0,他引:1  
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的.  相似文献   

11.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

12.
基于图挖掘的文本主题识别方法研究综述   总被引:1,自引:1,他引:0  
本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法。中心度方法通过对比文本网络中术语结点的重要度来实现文本主题的识别,紧密关联子图查找和图聚类方法则是根据文本图中术语结点和边的属性相似度来识别文本核心主题。基于语言文本网络自身特性,如何构建复杂文本关系图来同时揭示术语间的句法、共现和语义关系,如何基于术语关联和图拓扑结构识别其中的紧密关联子团,基于何种标准将紧密关联子团聚类以揭示文本核心主题,都是未来需要进一步深入研究的问题。表1。  相似文献   

13.
基于语义知识网络理论,提出了一种文书档案修复方法,来填充档案中缺失的(或者模糊的)部分文字数据.本文首先介绍了复杂网络的相关知识,然后根据复杂网络的社团结构原理提出了用于文书档案修复的填充算法,最后,应用实例说明了本文方法的可行性.  相似文献   

14.
生命科学近五年论文引文情况分析   总被引:1,自引:1,他引:0  
基于网络描述的复杂社会结构能够更好地展示网络中个体的联系特征,由此产生的复杂网络理论已经被广泛应用到社会科学的各个领域。近年来,除了对网络结构所具有的小世界、幂率分布等静态特性的分析外,大量研究开始关注网络结构中个体的组织特征。由这些个体组成的子图中,个体间有着更高的连接特征,而与其他子单元间的个体连接则相对稀疏。这种子单元通常被称为社团。社团发现及分析对研究网络的组织结构和社会特征有着重要意义。将社团发现方法应用到文献分析中,可以得到各学科领域的特征及关联关系。文章利用生命科学领域最近五年间的期-{iJ论文文摘记录,构造了两种引文网络。直接的引用网络和间接的论文耦合网络。对这两个网络基本属性的分析有助于了解生命科学领域发展的现状。此外,文章还使用了两种基于耦合网络的社团分析方法,重点分析了最近五年间生命科学领域的学科分类、关联特征以及随时间的演化情况,以助于理解整个生命科学领域的学科结构。  相似文献   

15.
根据互信息、RBF神经网络和关联规则原理,提出了一种抽取WEB文本分类规则的新方法。先根据互信息选择和各类相关程度大的若干词条,然后采用RBF神经网络方法对选择的特征进行进一步提取,得到维数较小的文本特征向量空间。之后再根据挖掘出的关联规则获取WEB文本分类规则,建立文本分类器,在保证了分类精度的前提下抽取出利于理解的文本分类规则。  相似文献   

16.
中文超声文本结构化与知识网络构建方法研究   总被引:1,自引:0,他引:1  
[目的/意义]超声检查是判断患者病情的重要依据,目前主要检查数据是以文本形式存在。本文提出一种基于超声检查数据的文本结构化和知识网络构建方法,为进一步挖掘临床知识奠定数据基础。[方法/过程]对自然语言处理技术在超声文本环境下的应用进行改进,包括分词处理、内容定位、结构化识别三个主要步骤,实现对超声文本的切分与标记,并且在此基础上建立其结构化知识网络。[结果/结论]真实数据测试结果显示,本文提出的面向超声检查文本的结构化方法具有较好的性能表现。该方法可以实现对批量超声文本结构化网络的自动构建,能够反映超声文本中结构化内容的层次关系与属性结构等潜在知识。  相似文献   

17.
李慧  胡吉霞 《图书情报工作》2020,64(18):114-125
[目的/意义] 针对包含单一类型知识单元的知识网络难以全面反映学科知识结构的问题,提出一种从多维度进行知识网络结构融合的方法,为学科领域知识结构挖掘提供借鉴。[方法/过程] 利用LDA及TF-IDF方法抽取学科知识单元,然后运用语义相似度和关键词共现分析方法构建3个学科知识子网络:主题网络、关键词网络和实体网络,并采用空间节点传递对齐方法对齐子网络节点,接着设计基于图卷积操作的自编码模型对知识节点进行表示,最后通过计算余弦相似度重构学科知识网络。[结果/结论] 实验部分以人工智能领域为例,构建融合主题、关键词和实体的学科知识网络并展开分析,实验结果表明,本文所提方法能有效地揭示学科领域研究内容和知识结构,为学科知识发现与组织研究提供有益参考。  相似文献   

18.
特征表示是数据聚类的关键问题之一。当前对科学数据特征表示的深度不够,从而在一定程度上影响科学数据聚类的效果。针对这一问题,提出复合文本描述的概念以及一种基于复合文本描述的科学数据特征表示方法,该方法的主要特点是运用不同的特征权重计算法分别对基于两种文本数据源的候选特征加以表示,并将两种特征集合并,最终实现强化特征集的目的。实验表明,该方法优于传统方法,使科学数据聚类的效果有明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号