期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈白雪宋培彦《图书情报工作》2018,62(1):132-139

[目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。相似文献

2.

在线课程质量观和质量要素的质性研究--基于专家、实践者和学习者的视角

李爽李梦蕾赵宏《中国远程教育(综合版)》2020,(3):42-50,81

本文采用扎根理论研究方法,通过对学术专家、实践者和学习者三类相关群体的访谈,调查高等教育和继续教育在线课程相关人群关于在线课程的质量观与对质量构成的认识,探索在线课程质量框架与要素,以期为促进人们对在线课程质量的共识,为改进和优化现有在线课程质量标准提供参考。研究通过对20位受访者累计22万字访谈文本的编码分析,发现四种质量观--服务质量观、系统性质量观、目标性质量观和增值性质量观,并定义出设计开发与实施运行两大类的九个在线课程质量要素--课程目标、课程内容、学习过程、学习支持服务、学习评价、媒体与技术环境、实施效果、改进发展和社会影响。其中,课程目标、学习内容与实施效果被定义为核心要素。本文基于TF-IDF关键词统计方法对三类群体的在线课程质量观差异进行了分析,并结合已有远程教育质量观和在线课程质量标准相关成果对本研究发现和定义的在线课程质量观、质量框架和质量要素进行了讨论与反思。相似文献

3.

利用本体关联度改进的TF-IDF特征词提取方法 总被引：3，自引：0，他引：3

徐建民王金花马伟瑜《情报科学》2011,(2)

针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。相似文献

4.

基于 K-means 的政府公文聚类方法

王荻智李建宏施运梅《教育技术导刊》2020,19(6):201-204

政府公文数量巨大,不同政府网站公文分类规则不一 ,在引用和参考公文时可能发生混淆。针对该问题,基于政府公文题目、摘要和正文内容,采用 K-means 算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频—逆文档频率（TF-IDF）权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用 K-means 算法进行聚类。使用清华大学 THUCTC 文本分类系统对公文聚类结果进行测试。实验结果表明,采用 K-means 算法对公文进行聚类,准确率达到 82.93%,远高于政府网站公文分类准确率。相似文献

5.

K-Means聚类的多种距离计算方法的文本实验比较

林滨《福建工程学院学报》2016,(1):80-85

针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。相似文献

6.

文献计量分析法精准定位资源环境类科技期刊“一带一路”专题策划方向

陶华杨小梅朱强侯春梅马素萍王曲梅金向远《中国科技期刊研究》2018,29(5):520-524

【目的】通过文献计量分析法筛选资源环境学科“一带一路”专题,解决传统选题策划与读者预期有偏差、无法精准吻合学科发展热点的问题。【方法】采用TF-IDF和文献互引聚类综合分析法,选取以“一带一路”为相似文献

7.

多学科交叉综合的研究领域内学科间分布状态与演化研究

曹嘉君王曰芬陈盛之邹本涛《情报学报》2020,39(5):459-468

本研究旨在揭示多学科交叉综合领域内的核心学科并分析学科间内在联系与演变,以此来分析领域内学科态势。以人工智能领域为研究对象,探讨该领域内相关学科的分布,分析学科相互间的关联和研究相似性及演化,为科学研究和政策制定提供支持。对文献资料进行预处理后,用关键词表征学科研究内容,并通过词袋模型构建学科向量;分别从基础统计、共现分析和相似性分析来研究学科的分布、人工智能与其他学科之间以及两两学科之间的相似性与演化。结果表明,人工智能领域内以计算机科学和工程为核心,以数学为基础,并逐渐延伸到社会科学、生物科学等领域,由单一的理论和技术研究向多学科应用领域发展。领域内学科的多元化也促进了管理学和法学等学科研究内容的转变。本研究分析路径可以在一定程度上揭示学科研究的跨学科发展趋势。相似文献

8.

基于VSM的科技期刊文献与专利文献的相似度计算方法研究

下载免费PDF全文

曾文徐红姣李颖王莉军赵婧《情报工程》2016,2(3):037-042

文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型（VSM）为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的TF-IDF计算方法。相似文献

9.

基于词序方法的文本相似度计算模型 总被引：1，自引：0，他引：1

郭武斌周宽久苏振魁《情报学报》2008,27(6)

针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%～15%. 相似文献

10.

基于主题的微博二级好友推荐模型研究 总被引：1，自引：0，他引：1

唐晓波祝黎谢力《图书情报工作》2014,58(9):105-113

随着社交网站用户爆炸性增长,寻找与自己兴趣相投的潜在朋友越来越困难。为了有效解决以上问题,基于社会关系理论中的同质性理论和三元闭包关系理论,分别从社会关系和内容两个维度向社交网络用户推荐志同道合的朋友。并利用LDA的扩展模型UserLDA对新浪微博用户进行兴趣主题建模,通过用户-主题概率分布矩阵计算用户相似度,以进行TopN二级好友推荐。在真实微博语料库上进行试验表明该推荐算法有较好的准确性和多样性。相似文献