首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
清华大学图书馆OPAC书封服务的设计与实现   总被引:1,自引:0,他引:1  
清华大学图书馆应用Mashup模式,基于现有的OPAC设计并开发图书封面服务,使用户查询OPAC时在检索结果中能无缝集成显示书封,为读者提供更为直观的应用体验。主要介绍该图书封面数据源服务器的设计和实施方案,重点描述外部图书封面数据源的设计思路,如何利用Servlet技术建立该数据源的方法以及该服务器与图书馆管理系统的连接方式等内容。  相似文献   

2.
[目的/意义] 构建基于关联数据的探索式检索系统,充分利用关联数据中隐藏的知识网络,向用户提供发现新知识的机会。[方法/过程] 基于DBpedia电影数据集,采用改进的向量空间模型进行关联数据的语义相似度计算,使用可视化的交互技术对检索结果进行呈现。[结果/结论] 通过基于任务的评价方法与IMDB进行对比,证明基于关联数据的探索式检索系统能够提高检索效率,提升用户体验并能引导用户发现其感兴趣的信息。  相似文献   

3.
移动图书馆WAP和APP用户检索行为比较分析   总被引:1,自引:0,他引:1  
[目的/意义] 对比用户在使用WAP和APP这两种方式访问移动图书馆时的检索行为,为移动图书馆的服务创新提供参考。[方法/过程] 通过对某高校图书馆OPAC系统移动端日志数据进行统计分析,从搜索会话、查询式、高频关键词以及检索方式等方面展开研究。[结果/结论] 发现用户更多地是使用WAP访问移动图书馆,相比之下,在使用APP访问移动图书馆时,用户更倾向于在短时间内进行较少的查询来结束搜索会话;使用这两种方式查询的高频关键词所属领域有很大的相似性,中文检索多集中在数学、管理学、经济学、社会学等领域;简单检索是用户访问移动图书馆时使用的主要检索方式,通过WAP访问的用户选择其他检索方式的比率要大于通过APP访问的用户。  相似文献   

4.
[目的/意义] 梳理基于知识图谱的实体检索的研究脉络和重点,探索未来该领域的发展方向。[方法/过程] 概述基于知识图谱的实体检索的形式化定义、实现路径以及主要的数据源;根据检索任务,将实体检索划分为匹配检索、扩展检索和推荐检索3种实现场景,并对其实现方法进行综述。[结果/结论] 随着应用的不断深入,基于知识图谱的实体检索研究开始关注如何优化用户的检索体验和提供多样性的检索结果,未来将在检索结果可解释性、跨领域知识图谱检索等多个方面展开深入的研究。  相似文献   

5.
介绍跨库检索和粗糙集的基本概念,提出将粗糙集理论引入跨库检索系统中来构建基于粗糙集的跨库检索系统模型的方法,并对该模型对结果集的处理进行重点论述。实验结果表明,跨库检索系统的返回结果可以按照查询的相似度高低排序,以提高用户查询的准确率和有效性。  相似文献   

6.
数字图书馆数值知识元检索系统设计   总被引:1,自引:0,他引:1  
[目的/意义]为满足数字图书馆用户对数值知识的个性化检索需求,向其提供细粒度的知识服务。[方法/过程]基于对数值知识元的深入分析,提出数字图书馆数值知识元识别、抽取、索引与检索方法,并构建一个面向数值知识元的检索系统。[结果/结论]通过实例分析验证基于数值知识元的细粒度知识服务能够在一定程度上提高检索和利用数值知识的效率和用户满意度。  相似文献   

7.
王颖  张智雄  孙辉  雷枫 《图书情报工作》2015,59(16):119-128
[目的/意义]构建国史知识检索平台,提高用户获取国史知识的效率,促进国史宣传和教育。[方法/过程]提出基于本体的国史知识检索平台构建思路与总体框架,在构建国史本体知识库的基础上,采用Neo4j数据库作为RDF数据仓储,创建基于Solr的实例索引、三元组索引和词条索引,针对多种检索需求设计实现检索引擎的执行流程、检索式构造方法以及查询处理算法,并为国史知识展示设计可视化实现方式。[结果/结论]构建国史知识检索平台,提供实体检索、查询问答、关联检索、时序检索及语义资源浏览等检索与浏览服务。该平台框架及关键技术实现方案可为面向领域知识的深度检索服务提供重要参考。  相似文献   

8.
沈敏  杨新涯  王楷 《图书情报工作》2015,59(11):143-148
[目的/意义] 针对大数据环境下高校图书馆检索系统的信息超载问题, 提出一种机器学习方法, 为用户提供个性化的偏好检索服务。[方法/过程] 通过提取用户检索行为大数据中的用户特征, 利用监督机器学习方法, 在线学习可随用户偏好同步变化的自适应检索模型, 预测用户对文献的选择概率, 优化检索结果的排序。[结果/结论] 设计出用户偏好检索原型系统, 介绍用户偏好检索系统工作流程, 对比分析系统效果, 并对系统进行客观评价。  相似文献   

9.
[目的/意义]梳理信息查询与检索领域挫折相关的研究现状,为挫折应对提供参考和借鉴。[方法/过程]从挫折内涵、信息查询挫折、信息检索挫折以及相关影响因素等角度分析国内外研究进展,归纳挫折成因。[结果/结论 ]已有文献结合问卷、访谈、实验、日志挖掘等多种研究方法,揭示了挫折产生原因以及用户、任务、信息结果与环境等因素对信息查询与检索挫折的影响。基于这些发现,从挫折理论模型构建、用户挫折感测量、信息素养教育以及信息服务提供等角度提出进一步研究建议。  相似文献   

10.
梁柱  沈思  叶文豪  王东波 《情报学报》2022,41(2):167-175
在现有的裁判文书检索系统上,非专业领域的用户检索具有局限性。目前,法律领域的智能检索仅在基于裁判文书的法律条文的推荐和分类上开展了研究,缺乏对裁判文书自动推荐的相关研究,因此,本文提出了一种利用类新闻的事实性文本智能推荐裁判文书的方法,结合目前的研究工作,总结裁判文书的结构和内容特征,利用类新闻的事实性文本模拟非法律专业用户的检索查询式,构建含有结构内容特征的裁判文书语料库,并自动推荐相关裁判文书文档。结果显示,利用裁判文书的法院意见结构内容特征,对新闻语料进行特征词表示之后,LambdaMART模型在文本匹配结果上表现良好,优于传统的全文检索技术。  相似文献   

11.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。  相似文献   

12.
侯丽  李姣  侯震  陈松景 《图书情报工作》2015,59(23):115-123
[目的/意义] 从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业术语的映射提供基础,进而优化健康类知识服务平台的知识组织与管理性能。[方法/过程] 设计规则与N-Gram相结合的健康术语新词的识别模型,采集公众查询数据,开展实验验证,通过多次实验,逐步完善过滤语料集合,结合人工判读,不断优化并验证方案的有效性。[结果/结论] 从互联网中公众提问句抽取出规则,结合统计算法进行公众使用的健康类新词抽取,该技术方法对识别公众使用的健康术语具有一定的通用性,能为建立公众术语与医学术语映射提供数据基础。实验结果表明:基于规则进行公众日志数据预处理,能为后续的实验方案提供较好的预处理文本,而采用N-Gram及各种过滤规则结合的术语识别方法,能较好地识别发现短文本中的新词。  相似文献   

13.
[目的/意义]通过在标注资源丰富的源领域(Source Domain)中学习,并将目标领域(Target Domain)的文档投影到与源领域相同的特征空间(Feature Space)中去,从而解决目标领域因标注数据量较小而难以获得好的分类模型的问题。[方法/过程]选择亚马逊在书籍、DVD和音乐类目下的中文评论作为实验数据,以跨领域情感分析作为研究任务,提出一种跨领域深度循环神经网络(Cross Domain Deep Recurrent Neural Network,CD-DRNN)模型,实现不同领域环境下的知识迁移。CD-DRNN模型在跨领域环境下的平均分类准确度达到了81.70%,优于传统的栈式长短时记忆网络(Stacked Long Short Term Memory,Stacked-LSTM)模型(79.90%)、双向长短时记忆网络模型(Bidirectional Long Short Term Memory,Bi-LSTM)模型(80.50%)、卷积神经网络长短时记忆网络串联(Convolution Neural Network with Long Short Term Memory,CNN-LSTM)(74.70%)模型以及卷积神经网络长短时记忆网络并联(Merged Convolution Neural Network with Long Short Term Memory,Merged-CNN-LSTM)模型(80.90%)。[结果/结论]源领域和目标领域的知识迁移能够有效解决监督学习在小数据集上难以获得好的分类效果的问题,通过CD-DRNN模型能够从无标注数据中有效地筛选特征,从而大大降低目标领域数据标注相关的工作量。  相似文献   

14.
[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。  相似文献   

15.
[目的/意义]鉴于全信息是通过自然语言来对事物的形式、内容和价值进行"三位一体"的描述,为了在知识构建(KA)中基于自然语言理解实现对全信息的有效获取和综合利用,使之为用户的知行能力的提升提供显隐智能生成的保障和生长的动力,为KA能力形成建立和谐的知识生态系统结构。[方法/过程]在KA的全信息获取和利用时,应该根据其生成机制及在用户智能活动中的综合作用,采取基于Web 2.0的"人主机辅"和"知行交互"的策略来综合集成规则方法与统计方法,以实现对自然语言的深度理解;并具体采用基于物联网综合集成智能系统的方法来对自然语言结构进行词类识别和关联挖掘。[结果/结论]针对语义Web在全信息表示、知识提炼和智能激活中的先天不足,KA的全信息获取可通过自然语言处理来对其进行分析、提取、表示;KA的全信息利用应采取基于Web 2.0群体智能与物联网综合集成相融合的方式来构建全信息Web(CI-Web)并加以综合利用。  相似文献   

16.
华斌  吴诺  贺欣 《图书情报工作》2021,65(23):58-69
[目的/意义]提出一种基于专家个体多维特征刻画的电子政务项目评审专家组推荐方法,提升专家组间项目评审的一致性水平。[方法/过程]以专家个体的长期评审意见为数据源,利用意见挖掘技术实现知识元识别与情感极性获取;构造专家的领域知识结构并动态迭代更新;利用统计分析刻画专家知识水平、评审深刻性、情感风格、领域专长特征,实现基于科学计量的专家特征刻画并以此为基础进行专家组合的推荐。[结果/结论]本文的方法注重专家组的多维特征均衡,对电子政务项目评审具有很好的问题针对性,并在实践中取得了良好的应用效果。  相似文献   

17.
董旻  方曙 《图书情报工作》2007,51(10):25-28
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。  相似文献   

18.
[目的/意义] 在人文计算兴起这一背景下, 为了更加深入和精准地从古代典籍中挖掘出相应的知识, 针对先秦文献进行自动分词的探究。[方法/过程] 基于《汉学引得丛刊》中的《春秋经传注疏引书引得》制定词汇表, 在由《春秋左氏传》和《晏子春秋》所构成的训练和测试语料上, 通过条件随机场模型, 结合使用统计和人工内省方法确定的特征模板, 完成对先秦典籍进行自动分词的探究。[结果/结论] 在先秦典籍自动分词的整个流程基础上, 得到简单特征模板、内部特征模板和组合特征模板下的自动分词模型, 最好的分词模型调和平均值达到97.47%, 具有较强的推广和应用价值。在构建自动分词模型的过程中, 通过融入内部和外部的特征知识, 模型的精确率和召回率得到有效的提升。  相似文献   

19.
Focused web crawling in the acquisition of comparable corpora   总被引:2,自引:0,他引:2  
Cross-Language Information Retrieval (CLIR) resources, such as dictionaries and parallel corpora, are scarce for special domains. Obtaining comparable corpora automatically for such domains could be an answer to this problem. The Web, with its vast volumes of data, offers a natural source for this. We experimented with focused crawling as a means to acquire comparable corpora in the genomics domain. The acquired corpora were used to statistically translate domain-specific words. The same words were also translated using a high-quality, but non-genomics-related parallel corpus, which fared considerably worse. We also evaluated our system with standard information retrieval (IR) experiments, combining statistical translation using the Web corpora with dictionary-based translation. The results showed improvement over pure dictionary-based translation. Therefore, mining the Web for comparable corpora seems promising.  相似文献   

20.
[目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号