共查询到20条相似文献,搜索用时 31 毫秒
1.
刘剑涛 《现代图书情报技术》2012,(2):18-22
针对传统协同过滤算法依赖单一用户需求形态影响推荐效果的问题,提出一种基于用户多态聚类的数字图书馆个性化推荐方法。该方法以改进的海明距离计算候选邻居集,结合多态相似度进行二次聚类,预测用户的多态需求度并形成推荐。实验表明,使用多态聚类产生的推荐精确度上优于单一聚类产生的推荐。 相似文献
2.
3.
4.
基于文档结构的向量空间检索模型研究 总被引:9,自引:0,他引:9
分析了传统向量空间检索模型在网络信息检索中的不足 ,给出了基于文档结构的向量空间检索模型。该模型将文档在逻辑上分成N段 ,依据特征项对文档内容代表能力的不同 ,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权值向量 ,并以此为基础计算文档与提问的匹配相似度值 ,从而决定匹配文档的检出与排列顺序。进行了两种模型算法时间复杂度的比较分析 ,讨论了改进模型的可能应用前景和存在问题。 相似文献
5.
Document clustering offers the potential of supporting users in interactive retrieval, especially when users have problems
in specifying their information need precisely. In this paper, we present a theoretic foundation for optimum document clustering.
Key idea is to base cluster analysis and evalutation on a set of queries, by defining documents as being similar if they are
relevant to the same queries. Three components are essential within our optimum clustering framework, OCF: (1) a set of queries,
(2) a probabilistic retrieval method, and (3) a document similarity metric. After introducing an appropriate validity measure,
we define optimum clustering with respect to the estimates of the relevance probability for the query-document pairs under
consideration. Moreover, we show that well-known clustering methods are implicitly based on the three components, but that
they use heuristic design decisions for some of them. We argue that with our framework more targeted research for developing
better document clustering methods becomes possible. Experimental results demonstrate the potential of our considerations. 相似文献
6.
基于粒子群的模糊C均值文本聚类算法研究 总被引:1,自引:0,他引:1
7.
二值化技术是数字图书馆系统中常用的数字图像处理技术,其算法的优劣决定着数字馆藏的阅读质量。本文给出了一种利用图像灰度统计特征值为阈值的全局二值化方法。该算法可针对不同文本图像的灰度直方图,利用高低通滤波的特征对图像进行阈值分割。算法具有较低的时间和空间复杂度。 相似文献
8.
Genetic Approach to Query Space Exploration 总被引:2,自引:0,他引:2
This paper describes a genetic algorithm approach for intelligent information retrieval. The goal is to find an optimal set of documents which best matches the user's needs by exploring and exploiting the document space. More precisely, we define a specific genetic algorithm for information retrieval based on knowledge based operators and guided by a heuristic for relevance multi-modality problem solving. Experiments with TREC-6 French data and queries show the effectiveness of our approach. 相似文献
9.
Ruihua Song Dingquan Wang Jian-Yun Nie Ji-Rong Wen Yong Yu 《Information Retrieval》2016,19(6):573-593
Users often issue all kinds of queries to look for the same target due to the intrinsic ambiguity and flexibility of natural languages. Some previous work clusters queries based on co-clicks; however, the intents of queries in one cluster are not that similar but roughly related. It is desirable to conduct automatic mining of queries with equivalent intents from a large scale search logs. In this paper, we take account of similarities between query strings. There are two issues associated with such similarities: it is too costly to compare any pair of queries in large scale search logs, and two queries with a similar formulation, such as “SVN” (Apache Subversion) and support vector machine (SVM), are not necessarily similar in their intents. To address these issues, we propose using the similarities of query strings above the co-click based clustering results. Our method improves precision over the co-click based clustering method (lifting precision from 0.37 to 0.62), and outperforms a commercial search engine’s query alteration (lifting \(F_1\) measure from 0.42 to 0.56). As an application, we consider web document retrieval. We aggregate similar queries’ click-throughs with the query’s click-throughs and evaluate them on a large scale dataset. Experimental results indicate that our proposed method significantly outperforms the baseline method of using a query’s own click-throughs in all metrics. 相似文献
10.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。 相似文献
11.
张爱红 《现代图书情报技术》2004,20(8):61-65
倒排文档是信息检索系统中最普遍使用的索引机制,而索引文件的压缩能大大提高检索速度和节约磁盘空间。倒排文件压缩的传统做法是文档(标识号)间距法(d-gaps)。然而,剧烈变化的间距值并不能被著名的前缀自由代码有效编码压缩。为了使间距值得到有效的压缩,本文设计了一个文档标识号重置法。模拟试验表明能更有效压缩d-gaps倒排文档。 相似文献
12.
Research on cross-language information retrieval (CLIR) has typically been restricted to settings using binary relevance assessments.
In this paper, we present evaluation results for dictionary-based CLIR using graded relevance assessments in a best match
retrieval environment. A text database containing newspaper articles and a related set of 35 search topics were used in the
tests. First, monolingual baseline queries were automatically formed from the topics. Secondly, source language topics (in
English, German, and Swedish) were automatically translated into the target language (Finnish), using structured target queries.
The effectiveness of the translated queries was compared to that of the monolingual queries. Thirdly, pseudo-relevance feedback
was used to expand the original target queries. CLIR performance was evaluated using three relevance thresholds: stringent,
regular, and liberal. When regular or liberal threshold was used, a reasonable performance was achieved. Using stringent threshold,
equally high performance could not be achieved. On all the relevance thresholds the performance of the translated queries
was successfully raised by pseudo-relevance feedback based query expansion. However, the performance of the stringent threshold
in relation to the other thresholds could not be raised by this method. 相似文献
13.
社会化标签系统中基于密度聚类的Web 用户兴趣建模方法 总被引:1,自引:0,他引:1
Web用户兴趣模型在个性化信息服务中有着非常重要的作用。本文利用社会化标签的独特优势,针对传统社会化标签聚类方法的局限性,提出了一种基于密度聚类的Web用户兴趣建模方法。首先建立基于社会化标签的向量空间模型,并将社会化标签表示为Web资源及其权重的形式,以此为基础利用DBSCAN算法对其进行聚类,进而依据所有Web用户的标注行为以每个聚类为中介计算特定Web用户对Web资源的兴趣度来构建Web用户兴趣模型。实验结果表明了该方法的优越性。 相似文献
14.
[目的/意义] , 从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小, 用于满足在线论文相似性检测秒级响应需求。[方法/过程] 采用分治法策略, 对已知文本句集进行基于正交基的软聚类预处理, 并对软聚类后的每个簇建立倒排索引。接着在快数据处理平台Spark上执行相似性检测, 采用字符结合词组形式计算出待检测论文与已知文本的相似度大小。[结果/结论] 通过200万规模的已知文本集实验结果显示, 综合4种类型的待检测论文, 所提出的倒排索引结合软聚类算法准确率P为100.0%, 召回率R为93.6%, 调和平均值F为96.7%。调和平均值F比相似性检测算法LCS高10%左右, 比Simhash算法高约23%。在检测速度上, 对于一篇字数为5 000左右的待检测论文, 检测时间约为6.5秒, 比Simhash算法快近300倍, 比LCS算法快约4 000倍。此外, 实验结果还表明基于Spark的分布式并行相似性检测算法具有较好的可扩展性。 相似文献
15.
从计算机辅助档案管理开始,就出现了取消立卷的声音.然而,从档案整理理论和实践发展情况看,立卷以其独特的优势,依然占据着主流地位.在电子文件时代,案卷应被赋予新的生命和意义.文章从电子案卷的概念出发,分析了电子文件立卷的需求、立卷的原则、立卷的标准和程序,是对电子文件整理工作理论和实践的再认识,对电子文件的科学管理具有一定借鉴意义. 相似文献
16.
基于IIG和LSI组合特征提取方法的文本聚类研究 总被引:8,自引:0,他引:8
本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法 ,对文本进行了有效的自动聚类。从语料库中抽取了 2 5 0篇文本 ,首先利用向量空间模型和改进的信息增益特征选择方法 ,构造文本特征向量 ,利用C 均值方法聚类 ,聚类结果准确率、查全率、F measure分别达到 0 .82、0 . 88、0 .83。在此基础上 ,对最优的特征选择结果运用潜在语义索引方法 ,对奇异值分解的结果进行截断处理 ,发现奇异值K取 4 0时聚类结果的准确率、查全率、F measure达到 0 . 95、0. 5 7、0 . 78,在有效地降维的同时 ,大幅度地提高了聚类的准确率。 相似文献
17.
提出一种基于遗传算法和k-medoids算法的新的聚类算法。指出该算法除能提高聚类的精度和识别孤立点外,还能加速遗传算法的收敛速度,节约时间成本。 相似文献
18.
19.
提出了一种新的模糊竞争神经网络聚类模型NFCNNC,并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,通过比较隶属度值得到获胜神经元。网络中仅两个神经元同时调节权值。隶属度值最大的神经元以较大的学习率调整权值,隶属度次大的神经元以较小的学习率调整权值,其他神经元权值不变。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。与传统模糊神经网络模型相比,本文的模糊神经网络模型具有结构简单、运行效率高、聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。通过对文本聚类的实验验证,本算法取得了良好的效果。 相似文献
20.
基于样本加权的文本聚类算法研究 总被引:3,自引:0,他引:3
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果. 相似文献