期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

白振田衡中青侯汉清《图书馆杂志》2008,27(8)

古籍文献普遍存在着引书现象,因而构建一套针对地方志引书的挖掘识别系统,对古籍的研究以及目录学史、藏书史、科技史,都具有重要意义.本文以地方志资料汇编<方志物产>为语料,设计并构建了一个古籍引书挖掘系统.重点讨论了引书的模式提取、N-gram分词识别等功能算法. 相似文献

2.

基于N元语法的英文学术文献聚类标签抽取算法

吴夙慧成颖郑彦宁潘云涛《现代图书情报技术》2011,(Z1):68-75

提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-means算法进行聚类,从聚簇中抽取N元语法项计算TFIDF值,对出现在词表中的特征项赋以更高的权值,以得分最高的特征项作为聚类标签。实验结果表明,该算法能获得更好的实验效果。同时,在抽取聚类标签时提出一种改进的TFIDF权重计算,在评价标签质量时提出一种新的标签评价方法R@N方法。相似文献

3.

基于LSI理论的文本自动聚类研究

常娥《图书情报工作》2012,56(11):89-92

结合潜性语义索引（latent semantic index,LSI）理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。相似文献

4.

电子政务主题词表自动构建研究 总被引：4，自引：0，他引：4

仲云云侯汉清杜慧平《中国图书馆学报》2008,34(3)

电子政务主题词表是电子政务信息组织和检索的重要语义工具。传统手工编制叙词表的方法已不再适用于网络环境。电子政务词表的自动构建技术主要有基于N-gram方法的词汇收集和选择词间关系的自动识别。要想编制一部性能优越且容易应用的词表,应将计算机自动构建与传统方式编制结合起来,取长补短。表7。参考文献10。相似文献

5.

图书内容主题索引的自动编制实验 总被引：1，自引：1，他引：0

潘雪莲侯汉清许扬威《大学图书馆学报》2008,26(3):28-33

针对现有索引软件一般只能进行字面标引而不能实现概念标引的不足,提出了一个基于概念标引的图书内容主题索引自动编制方案,即将图书章节细化后,利用基于单篇文献的自动标引系统进行图书主题标引。通过三种标引系统对实验语料的标引结果统计来选择标引系统;其次通过对篇章结构分析,提出基于标题符号的标引源自动识别方案,同时给各标引源设定权重,提出主题词标引流程;最后还探讨了标引单元确定以及索引地址设计。实验表明,基于N-gram方法的图书内容主题索引的自动编制方法是可行的。相似文献

6.

Multilingual opinion mining on YouTube – A convolutional N-gram BiLSTM word embedding

Huy Tien Nguyen Minh Le Nguyen 《Information processing & management》2018,54(3):451-462

Opinion mining in a multilingual and multi-domain environment as YouTube requires models to be robust across domains as well as languages, and not to rely on linguistic resources (e.g. syntactic parsers, POS-taggers, pre-defined dictionaries) which are not always available in many languages. In this work, we i) proposed a convolutional N-gram BiLSTM (CoNBiLSTM) word embedding which represents a word with semantic and contextual information in short and long distance periods; ii) applied CoNBiLSTM word embedding for predicting the type of a comment, its polarity sentiment (positive, neutral or negative) and whether the sentiment is directed toward the product or video; iii) evaluated the efficiency of our model on the SenTube dataset, which contains comments from two domains (i.e. automobile, tablet) and two languages (i.e. English, Italian). According to the experimental results, CoNBiLSTM generally outperforms the approach using SVM with shallow syntactic structures (STRUCT) – the current state-of-the-art sentiment analysis on the SenTube dataset. In addition, our model achieves more robustness across domains than the STRUCT (e.g. 7.47% of the difference in performance between the two domains for our model vs. 18.8% for the STRUCT) 相似文献

7.

未来反恐态势预测研究

冒伟《教育技术导刊》2019,18(7):28-31

通过对全球恐怖主义数据库（GTD）进行分析,为未来反恐防恐行动提供有价值的信息支持,提出利用大数据挖掘方法对未来反恐态势进行分析。首先采用N-gram模型对原始数据中的motive属性进行挖掘,分析恐怖袭击事件发生的主要动机。其次通过AR自回归模型,对恐袭造成的死亡人数进行预测。最后通过构建TreeMap图,展示未来全球某些重点地区的反恐态势,从恐怖事件发起动机、死亡人数、重点地区3个方面对未来恐怖袭击进行预测。实验结果显示,采用大数据分析预测精度较高。相似文献