首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于可视化数据挖掘的管理科学科技文本分析研究   总被引:8,自引:0,他引:8  
通过可视化数据挖掘方法的研究,使用数据挖掘和科技文本分析的方法,获取管理科学研究的新进展、新思想和新方法。综合评价、对比分析了国内外管理科学研究力量和能力水平的分布状况,对管理科学研究主体度资助主体决策活动有较强的支持作用,并对我国管理科学领域进行了实证分析。  相似文献   

2.
文本挖掘与中文文本挖掘模型研究   总被引:5,自引:0,他引:5  
谌志群  张国煊 《情报科学》2007,25(7):1046-1051
文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCTMF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。  相似文献   

3.
陈旭毅 《情报科学》2007,25(10):1530-1533
自动文本分类方法是文本分类中非常重要的一种分类方法,本文着重从模型与方法的角度进行探讨。首先给出了一个自动文本分类的形式化定义,然后提出了自动文本分类的流程模型。接着,对流程中的四个部分进行具体讨论。自动文本分类的应用非常广泛,为了叙述方便,以商务数据为例进行讨论,并且选择实例作为典型案例对自动文本分类后的可视化进行分析和具体研究。  相似文献   

4.
[目的/意义]随着我国关于政策文本研究文献的日益增多,对国内CSSCI期刊发表的相关研究文献进行综合述评有助于梳理政策文本分析研究的脉络,为未来政策文本研究的深入提供参考。[方法/过程]基于文献计量学和可视化分析视角,绘制我国政策文本研究的作者共现图谱、机构共现图谱、关键词共现图谱、关键词聚类图谱、关键词突变图谱等。[结果/结论]可视化地呈现了我国政策文本研究中具有影响力的作者及科研机构间的合作情况,通过分析关键词共现、聚类、突变情况以揭示政策文本研究发展脉络,并对研究方法、研究视角与研究领域进行总结。  相似文献   

5.
谭金波 《情报杂志》2007,26(9):87-88,91
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文举分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念的权重方法进行了比较研究,实验结果表明TF.IDF整体得分最高,能够对文本进行较好地形式化表示。  相似文献   

6.
[目的/意义]对国内文本情感分析的研究成果进行梳理与计量分析,有助于从不同角度了解主题研究状况、发文情况,对后续的研究具有一定的参考价值。[方法/过程]本文对发文期刊、作者团队进行统计分析,并利用共词分析法,研究关键词之间的联系,探讨近十年来在文本情感分析的研究热点及现状。[结果/结论]结果表明,我国近两年对文本情感分析的研究主要有基于情感词典的机器学习和神经网络的深度学习两种方法,文章最后指出了两种方法的研究现状及未来研究方向。  相似文献   

7.
柴文越  刘小平  梁爽 《现代情报》2023,(12):164-177
[目的/意义]梳理国内外新兴主题识别相关研究,总结不同方法的优缺点,归纳现有研究存在的问题,为新兴主题识别研究提供参考。[方法/过程]首先对新兴主题及其相关概念进行辨析;其次根据新兴主题识别的流程,从数据源及分析对象的选择、识别主题的方法、用于筛选新兴主题的特性与指标3个层面对相关文献集进行梳理与分析;最后,提出现有研究的局限与不足,并对未来发展作出展望。[结果/结论]新兴主题识别研究经过20余年的发展,已经形成了较为规范的研究流程及较为丰富的研究方法,但仍存在一定的不足。在理论层面,新兴主题的定义尚不明确;在数据集构建方面,数据源的选择与融合方式有待完善;在主题识别方面,研究方法时滞性较强,对语义关注和解释不足;在筛选指标方面,缺乏客观完整的评价体系。未来需要针对相关理论和研究方法进行更为深入的研究。  相似文献   

8.
自动文本分类方法研究述评   总被引:1,自引:0,他引:1  
蒲筱哥 《情报科学》2008,26(3):469-475
在总结已经研究出的经典文本分类方法的基础上,对当前涌现出的一些新的文本分类方法进行了归纳,得出了当前研究的不足之处和未来发展趋势。  相似文献   

9.
自然语言理解心理学在短文本分类中的实证研究   总被引:1,自引:0,他引:1  
目前对文本分类研究多数集中在对大规模语料基础上的特征选择或分类器算法的研究。本文是建立在训练样本少且样本长度短的基础上,根据人脑对自然语言理解的心理学原理"人们总是根据已知的最熟悉的、最典型的例子进行判断,只有在该方法不奏效的时候才使用频率这一概念,并且使用的是十分简单的频率"从该角度进行短文本分类的实证研究。以心理学中的"熟悉原理"、"典型原理"等为模型建立特殊词库和典型案例词库,改进了传统文本分类的实验步骤,同时提出了该方法的优势和局限性。  相似文献   

10.
自动文本分类技术研究   总被引:1,自引:0,他引:1  
奉国和 《情报杂志》2007,26(12):108-111
文本分类是数据挖掘的重要内容之一,在很多领域经常需要对文本信息进行处理、抽取、分类。通过分析了文本分类过程中涉及的文本表示、特征抽取、分类等方法,指出文本分类的基本特点。  相似文献   

11.
王倩  曾金  刘家伟  戚越 《情报科学》2020,38(3):64-69
【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经网络的特征对学术文本段落进行表达,然后进行分类。【结果/结论】文本提出的深度学习方法在整体分类结果上优于传统的机器学习方法,同时极大的减少了传统特征工程的人力需求。  相似文献   

12.
李光敏  陈炽  邢江  彭绪富  杨怿 《现代情报》2016,36(8):168-173
随着Web2.0技术和电子商务的飞速发展,越来越多的用户通过互联网分享产品的使用体验和表达喜恶的观点,如何有效地从评论文本中抽取产品特征是产品意见挖掘方向所亟需解决的问题。本文从产品特征频繁项、特征-意见共现关系、模型训练和显隐式特征匹配四个方面介绍产品特征抽取工作在国内外的研究进展并指出其各自的优势和不足,最后列出产品特征抽取在今后的研究方向。  相似文献   

13.
张小艳  宋丽平 《现代情报》2009,29(3):131-133
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。  相似文献   

14.
跨语言文本分类技术研究进展   总被引:1,自引:1,他引:0  
本文以综述的形式对跨语言文本分类技术目前的发展态势进行了介绍,从应用背景出发,了解跨语言文本分类技术的社会需求;从关键技术出发,了解该项技术的核心问题及解决方案;从已有研究成果得到的结论揭示了该项技术的发展状况,作为一种重要的多语信息组织手段,跨语言文本分类技术发展前景广阔。
Abstract:
The present development situation of Cross-Language Text Categorization (CLTC) technologies is summarized.The paper describes the social demand for CLTC technologies from the perspective of the application background,describes the core issues of and solutions to CLTC technologies from the perspective of key technologies,and discloses the development status of CLTC technologies from the conclusions drawn from the obtained research results.As an important means for multilingual information organization,CLTC technologies have a broad development prospect.  相似文献   

15.
基于词频的中文文本分类研究   总被引:1,自引:0,他引:1  
姚兴山 《现代情报》2009,29(2):179-181
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。  相似文献   

16.
本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。  相似文献   

17.
在文本分类中,特征抽取是一项很重要的工作,抽取到的特征项质量的好坏直接影响到分类的效果。在研究了文本分类中常用的文本特征词预抽取方法的基础上,提出了一种基于词性选择的特征预抽取方法,结合IG方法进行特征抽取。在分类实验中实验结果显示,这种基于词性的特征预抽取方法在分类过程中可以在不降低分类精度的同时可以减少特征维数和训练时间。  相似文献   

18.
潘正高 《情报科学》2012,(5):708-712,786
介绍命名实体识别在文本信息处理领域的重要地位,分析了中文命名实体识别存在的困难,介绍中文命名实体识别的一般过程、评价标准及方法。提出了一种在构造内部规则和外部规则的同时采用概率统计的中文命名实体的识别方法,并利用这种基于规则和统计相结合的方法。实验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性。  相似文献   

19.
[目的/意义]在自动摘要技术的基础上,结合专利特性,提出一种专利技术功效特征的自动抽取方法。[方法/过程]抽取对象包括核心技术内容、功能效用描述两部分;根据专利的文本结构特性设计抽取方案;对所抽取到的技术内容语句进行核心性计算和评价,对所抽取到的功能效用语句进行情感分析,凝练和筛选后得到专利技术功效特征。[结果/结论]样本对比试验显示,本文提出的方法较同类方法在ROUGE值上有所提升,能够较好地实现专利技术功效特征的自动抽取。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号