共查询到10条相似文献,搜索用时 203 毫秒
1.
一种基于TFIDF方法的中文关键词抽取算法 总被引:4,自引:1,他引:3
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著. 相似文献
2.
3.
传统的文本信息处理方法无法表征文本内特征,所以不适用于模糊特征的提取分类提出一种高特征参差性下强收敛性文本的信息处理技术,对文本间和文本内的特征同时进行提取,采用迭代控制的TFIDF对特征进行加权值的计算,最后采用22类文本进行性能测试,结果显示,迭代控制的TFIDF算法能够更加细致地对文本进行分类,对特征进行提取,并且算法收敛速度快,稳定性好,具有很好的应用价值。 相似文献
4.
讨论了基于电子政务主题词表的中文匹配方法。该方法以电子政务主题词表为基础,对中文文本进行匹配,找出文本中的主题词,作为进一步标引文本和检索文本的前提。为了匹配出文本中出现频率较高的而主题词表中没有的词语,我们根据n—Gram统计特性学习新词。对于匹配结果中出现的交集型歧义这类主要的歧义类型.通过计算匹配词语与其交集词语各自字符之间的互信息值。来消除匹配词语的交集歧义,互信息值较大的词说明该字符组舍的可能性比较大。 相似文献
5.
中文学术期刊英语化关键词标目的主要类型及其使用原则 总被引:2,自引:1,他引:2
蔡宇宏 《中国科技期刊研究》2003,14(6):687-689
文章通过对中文学术期刊中文关键词抽样统计调查研究,指出中文学术期刊论文关键词标引中的英语化现象主要可以归纳为以下三种情况:一是中英文混合词语或纯英文词语用作中文关键词;二是英文音译词用作中文关键词;三是英文缩略语用作中文关键词。并提出在选用英语化词语用作中文关键词的过程中,应注意坚持涵义唯一性原则,常用、惯用、通用原则以及规范性原则。 相似文献
6.
[目的/意义]针对专业领域研究人员难以从大量无监督文本数据中快速获取领域关键知识,以精准把握专业研究方向和内容。[方法/过程]文章提出一种基于迁移学习领域自适应的文本关键词提取模型。首先通过采集中国知网中特定领域的文章和关键词,将其作为目标域数据,将待提取关键词的无监督文本作为源域数据,通过最小化二者间的共享相似特征和关键词分类交叉熵,实现关键词提取方法的跨领域迁移,完成对无监督领域文本的关键词提取任务。[结果/结论]对1313篇“人工智能风险”主题的文章进行领域关键词提取,实验表明该领域关键词提取模型相比于BiLSTM-CRF、TF-IDF模型提取效果提升显著,在领域关键知识提取场景中有较强应用价值。 相似文献
7.
8.
文本自动分类是文本信息处理中的一项基础性工作。将范例推理应用于文本分类中,并利用词语间的词共现信息从文本中抽取主题词和频繁词共现项目集,以及借助聚类算法对范例库进行索引,实现了基于范例推理的文本自动分类系统。实验表明,与基于TFIDF的文本表示方法和最近邻分类算法相比,基于词共现信息的文本表示方法和范例库的聚类索引能有效地改善分类的准确性和效率,从而拓宽了范例推理的应用领域。 相似文献
9.
研究了中文词自动分类问题。针对传统的蚁群算法中文词语分类精确度低等问题,提出了一种将蚁群算法应用到了中文词语自动分类中。方法建立在首先对大规模语料文本进行统计和计算的基础上,得到词的一元和二元信息,然后采用了蚁群算法对该信息进行词的分类。实验结果表明,提出的算法有效提高了词语分类的精确度。 相似文献
10.
针对目前基于主题图的中文自动分类的空缺,文章在总结Ontopia对英文和挪威文自动分类的技术基础上,结合中文特殊性,构建了一个基于主题图的中文分类原型系统。该系统通过借助POI、PDF、SAX作为文档文本解析器提取文本,采用盘古分词对文本进行分析,以Java为系统实现主要语言,达到了基于主题图的中文自动分类的目的。 相似文献