期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种基于TFIDF方法的中文关键词抽取算法 总被引：4，自引：1，他引：3

徐文海温有奎《情报理论与实践》2008,31(2):298-302

本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著. 相似文献

2.

利用本体关联度改进的TF-IDF特征词提取方法 总被引：3，自引：0，他引：3

徐建民王金花马伟瑜《情报科学》2011,(2)

针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。相似文献

3.

高特征参差性下强收敛性文本的信息处理

董健《科技通报》2014,(4):71-73

传统的文本信息处理方法无法表征文本内特征,所以不适用于模糊特征的提取分类提出一种高特征参差性下强收敛性文本的信息处理技术,对文本间和文本内的特征同时进行提取,采用迭代控制的TFIDF对特征进行加权值的计算,最后采用22类文本进行性能测试,结果显示,迭代控制的TFIDF算法能够更加细致地对文本进行分类,对特征进行提取,并且算法收敛速度快,稳定性好,具有很好的应用价值。相似文献

4.

基于电子政务主题词表的中文匹配方法

杨芳《情报杂志》2005,24(8):14-15,13

讨论了基于电子政务主题词表的中文匹配方法。该方法以电子政务主题词表为基础,对中文文本进行匹配,找出文本中的主题词,作为进一步标引文本和检索文本的前提。为了匹配出文本中出现频率较高的而主题词表中没有的词语,我们根据n—Gram统计特性学习新词。对于匹配结果中出现的交集型歧义这类主要的歧义类型．通过计算匹配词语与其交集词语各自字符之间的互信息值。来消除匹配词语的交集歧义,互信息值较大的词说明该字符组舍的可能性比较大。相似文献

5.

中文学术期刊英语化关键词标目的主要类型及其使用原则 总被引：2，自引：1，他引：2

蔡宇宏《中国科技期刊研究》2003,14(6):687-689

文章通过对中文学术期刊中文关键词抽样统计调查研究，指出中文学术期刊论文关键词标引中的英语化现象主要可以归纳为以下三种情况：一是中英文混合词语或纯英文词语用作中文关键词；二是英文音译词用作中文关键词；三是英文缩略语用作中文关键词。并提出在选用英语化词语用作中文关键词的过程中，应注意坚持涵义唯一性原则，常用、惯用、通用原则以及规范性原则。相似文献

6.

基于领域自适应的无监督文本关键词提取模型——以“人工智能风险”领域文本为例

毛立琦石拓吴林马涛《情报理论与实践》2022,(3):182-187

[目的/意义]针对专业领域研究人员难以从大量无监督文本数据中快速获取领域关键知识,以精准把握专业研究方向和内容。[方法/过程]文章提出一种基于迁移学习领域自适应的文本关键词提取模型。首先通过采集中国知网中特定领域的文章和关键词,将其作为目标域数据,将待提取关键词的无监督文本作为源域数据,通过最小化二者间的共享相似特征和关键词分类交叉熵,实现关键词提取方法的跨领域迁移,完成对无监督领域文本的关键词提取任务。[结果/结论]对1313篇“人工智能风险”主题的文章进行领域关键词提取,实验表明该领域关键词提取模型相比于BiLSTM-CRF、TF-IDF模型提取效果提升显著,在领域关键知识提取场景中有较强应用价值。相似文献

7.

一种基于语义的中文文本分类算法

赵辉刘怀亮范云杰左晓飞《情报理论与实践》2012,35(3):115-118

针对向量空间模型中语义缺失问题,将语义词典（知网）应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。相似文献

8.

范例推理在文本自动分类中的应用研究

耿焕同李杰《情报理论与实践》2007,30(6):837-840

文本自动分类是文本信息处理中的一项基础性工作。将范例推理应用于文本分类中,并利用词语间的词共现信息从文本中抽取主题词和频繁词共现项目集,以及借助聚类算法对范例库进行索引,实现了基于范例推理的文本自动分类系统。实验表明,与基于TFIDF的文本表示方法和最近邻分类算法相比,基于词共现信息的文本表示方法和范例库的聚类索引能有效地改善分类的准确性和效率,从而拓宽了范例推理的应用领域。相似文献

9.

基于改进的蚁群算法中文词语自动分类技术研究

赖娟《科技通报》2012,28(2):152-154

研究了中文词自动分类问题。针对传统的蚁群算法中文词语分类精确度低等问题,提出了一种将蚁群算法应用到了中文词语自动分类中。方法建立在首先对大规模语料文本进行统计和计算的基础上,得到词的一元和二元信息,然后采用了蚁群算法对该信息进行词的分类。实验结果表明,提出的算法有效提高了词语分类的精确度。相似文献

10.

基于主题图的中文自动分类原型系统设计与实现

吕世国《科技创业月刊》2015,28(6):103-105

针对目前基于主题图的中文自动分类的空缺,文章在总结Ontopia对英文和挪威文自动分类的技术基础上,结合中文特殊性,构建了一个基于主题图的中文分类原型系统。该系统通过借助POI、PDF、SAX作为文档文本解析器提取文本,采用盘古分词对文本进行分析,以Java为系统实现主要语言,达到了基于主题图的中文自动分类的目的。相似文献