首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 112 毫秒
1.
基于文档结构的向量空间检索模型研究   总被引:9,自引:0,他引:9  
韩毅 《情报学报》2004,23(2):158-162
分析了传统向量空间检索模型在网络信息检索中的不足 ,给出了基于文档结构的向量空间检索模型。该模型将文档在逻辑上分成N段 ,依据特征项对文档内容代表能力的不同 ,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权值向量 ,并以此为基础计算文档与提问的匹配相似度值 ,从而决定匹配文档的检出与排列顺序。进行了两种模型算法时间复杂度的比较分析 ,讨论了改进模型的可能应用前景和存在问题。  相似文献   

2.
文章将改进BP网络应用到期刊论文的分类领域中。该方法根据中文期刊论文的特点选择题名、摘要及关键词作为特征项的来源,计算特征项的权值,设定阀值对特征项向量进行降维处理,最后利用BP神经网络对不同的阀值分别进行分类实验,比较其效果。  相似文献   

3.
姚长青  杜永萍 《图书情报工作》2012,56(18):50-53,109
舆情跟踪是对媒体信息流中的热点话题进行实时追踪,是近年来自然语言处理领域的研究热点。实现该任务的核心技术是进行文本分类,运用信息增益以及互信息计算特征项权重,提取向量空间模型中文档表示的有效特征;分别采用Rocchio、K-Nearest Neighbor(KNN)、Bayes方法对于给定主题的事件实现舆情跟踪。在测试集上的最优性能F-Measure值达到86.2%。舆情跟踪在信息安全等领域具有广阔的应用前景,为用户及时判断网络热点事件的发展趋势提供有效指导依据。  相似文献   

4.
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义,将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型偏差问题.通过计算义项相似度,加权得到文档相似度.实验证明,该方法较好地描述了文档特征,能够达到良好的聚类效果,是切实可行的.  相似文献   

5.
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式 的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义, 将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型 偏差问题。通过计算义项相似度,加权得到文档相似度。实验证明,该方法较好地描述了文档特征,能够达到良好的聚 类效果,是切实可行的。  相似文献   

6.
针对国内外图书馆绩效评价过程中评价方法存在的局限性,以及绩效评价系统指标因素的模糊性、不确定性、难以量化等特征,提出了遗传算法和BP神经网络算法相结合的GA-BPNN组合模型对其进行评价,首先建立基于GA-BPNN的评价模型,运用遗传算法GA优化BP神经网络的连接权值和阈值,然后把优化好连接权值和阈值输入BP网络进行智能网络训练,最后把待评价的测试样本输入到训练好的BP网络中进行实证分析,得到图书馆绩效评价的实际输出值,与传统BP神经网络算法得出的结果对比,拟合精度、准确度、效率大幅提高,从而证明该模型具有较好的可行性和实用性.  相似文献   

7.
信息报道的可信度分析与保证   总被引:1,自引:0,他引:1  
提出信息中介机构在向用户进行信息专题提供时,对于信息尤其是含有主观判断的软信息,应建立一套信息筛选机制,以客观、真实地反映事件或事物:首先通过信息文档特征项的选取与处理建立“特征项—文档”矩阵,其次将其与本体模板进行对照来对信息文档集的完整性、平衡性进行检验;最后给出信息文档集的可信度参考测量模型与案例。  相似文献   

8.
王煜  白石  王正欧 《情报学报》2007,26(5):643-647
本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度.  相似文献   

9.
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取.本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重.为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度.采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试.实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.56%和0.21%.  相似文献   

10.
论文首先描述了图书馆电子资源质量评价指标体系的构建,并且详细阐述了采用BP神经网络建立图书馆电子资源质量评价模型的过程,包括BP神经网络基本原理、网络结构的确定和网络的检验。并通过实证进一步阐明为了能够有效地管理评价图书馆的电子资源,需要采用BP神经网络模型对图书馆电子资源的质量进行评价。  相似文献   

11.
用词上下文向量来表达文本集内一个词语与其他词语之间的上下文关系,并在词上下文向量的基础上生成分类器中所有类别的类别特征向量,以及待分类文本的特征向量,最后由分类器给出待分类文本的所属类别。实验显示,在类别特征向量和文本向量中融入词语上下文关系有助于改善文本分类效果。  相似文献   

12.
对现行的图书馆流通服务方式进行分析,以探求高校图书馆流通服务的新方法。指出文献预留是高校图书馆文献信息服务的一种新形式,对时下的高校图书馆文献信息服务是一种很好的开拓,并以本馆开展文献预留服务为例,介绍文献预留服务的具体办法及操作流程。  相似文献   

13.
区分文档过滤、信息过滤和文本过滤并介绍文档过滤技术的研究现状;提出基于Ontology的文档过滤的设想,认为其优势在于灵活、共享性好、有利于进行个性化服务等;讨论基于Ontology的文档过滤的实施过程,包括构建准备、本体构建、本体调用,重点阐述公共本体、用户本体和文档本体的构建方法以及实施过程中涉及的技术体系;最后指出今后的努力方向。  相似文献   

14.
CALIS三期e得门户为高校图书馆进行文献传递与用户文献获取提供了一条便捷途径。基于CALIS三期e得门户构建区域文献传递“共享域”,在整合区域高校图书馆文献传递系统的基础上,来实现用户对文献的便捷获取。作为一个应用范例,通过对文献传递服务的几种模式进行分析,指出在e得门户上对区域各高校馆的文献传递系统进行无缝集成是可行的。最后,对区域文献传递共享域建构所面临的主要问题进行分析并提出相应的解决措施。  相似文献   

15.
本文提出一种面向聚类主题的文本特征表示方法,即以聚类的主题概念来刻画文本的特征向量,将文本描述提升至语义层次.首先,通过聚类,形成一组以向量形式表达的隐含主题概念,再将基于词条空间的文本特征向量投影至这组主题概念,以隐含的主题概念来描述文本.实验分析表明,建立在概念空间之上的文本向量实质上是文本矢量与主题概念的关联度,能够突出表现文本内容的主题特征,更好地反映文本的语义内容,从而有效提高模型在文本检索与分类等领域的应用性能.而基于聚类形成的概念空间的维数由于可主观调整,又能有效地约减概念空间的维数,提高模型的应用实效.  相似文献   

16.
在数字图书馆建设中,出现一种在加工层次上实现知识整合、功能上适用知识服务、效用上参与知识创新的新文献,从文献加工深度划分文献类型的角度,继一、二、三次文献序列,命名新文献类型为 “四次文献”。描述“四次文献”的性状、概念及特征、发展态势及展望。  相似文献   

17.
图书馆文献采集原理研究   总被引:4,自引:0,他引:4  
文献选择是文献采集工作的核心,在文献采集系统范围内,决定文献采集系统输出变化的是文献选择。现有文献选择理论的缺陷是无法指导实践,需要从文献采集系统的输入和输出出发,考虑其效益。由此,文献选择的基本原理是:在成本相同情况下,优先选择概率使用价值大的文献。  相似文献   

18.
简帛文献学中文献辨伪观念和方法研究述评   总被引:1,自引:0,他引:1  
传统文献学界以静止不变的观念看待古书的形成和流传,并由此形成了一套文献辨伪方法,而简帛文献的出土则提供了古书形态和流传的真实图景,引起了学术界对于传统文献辨伪观念和方法的反思。文章述评了简帛文献学界关于文献辨伪观念和方法新的研究成果,并对文献学建设提出了一点建议。  相似文献   

19.
认为用户在使用文献传递平台的过程中会根据自身体验产生一系列的评价,这些评价影响着用户行为。基于“用户行为还原法”,建立文献传递用户评价与用户行为关系模型。对21位资深文献传递员进行访谈,总结出影响用户评价的因素,将这些因素与文献传递用户的4类行为(选择平台、信息检索、提交申请、获取文献)一一对应进行分析,最后为文献传递平台管理机构提出建议:①保证文献获取率;②提高服务效率;③加强资源整合与揭示;④简化流程,方便读者。  相似文献   

20.
一种基于词共现图的文档自动摘要研究   总被引:1,自引:0,他引:1  
耿焕同  蔡庆生  赵鹏  于琨 《情报学报》2005,24(6):651-656
本文提出了一种基于词共现图的文档自动摘要算法。该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定文档摘要长度。在实验评估中,该文档自动摘要方法取得了令人满意的摘要效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号