首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
[目的/意义]在线医疗信息抽取是实现医疗信息检索、医疗信息推荐、个人医疗健康提醒及警示、疾病诊断、公众健康监控、药物不良反应挖掘等服务的基础环节,而医疗实体抽取则是在线医疗信息抽取的首要工作。本文拟解决传统医疗实体抽取严重依赖于人工特征提取且效率低的问题。[方法/过程]以网络文本为研究对象,首先对医疗实体类型和医疗实体抽取的目标进行描述。将在线医疗文本中的医疗实体抽取任务看作序列标注问题来解决,通过对CNN模型和BiLSTM模型基础理论的探讨,构建基于混合深度学习模型CNN-BiLSTM的医疗实体抽取框架。[结果/结论]通过三组对比实验,验证了本文所使用的CNN-BiLSTM模型在医疗实体抽取任务中的有效性。  相似文献   

2.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

3.
[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。  相似文献   

4.
文章通过学习扩展的机器学习和深度学习,提出针对非物质文化遗产项目语料的术语抽取及新词发现方法,形成领域术语库并探讨在数字人文领域的应用。首先使用自然语言处理方法对非遗陶瓷语料进行预处理,结合领域术语词表对语料进行标注;然后针对Random-CRFs模型,研究词表特征(DICT)、词性特征(POS)、部首特征(Radical)、拼音特征(Pinyin)对术语抽取效果的影响,再对比Random-CRFs、Random-BiLSTM、Random-BiLSTM-CRFs、BERT-BiLSTMCRFs等4个模型对术语抽取效果的影响;最后使用训练完成的模型对测试集语料进行新词识别,对抽取出的候选词进行人工判断,构建包含1,173个术语的非物质文化遗产陶瓷工艺领域术语库,将其应用于非遗项目画像、非遗陶瓷工艺知识图谱和非遗陶瓷工艺术语检索。  相似文献   

5.
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。  相似文献   

6.
[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。  相似文献   

7.
网络招聘文本技能信息自动抽取研究   总被引:1,自引:1,他引:0  
[目的/意义]针对目前网络招聘文本手工抽取技能信息无法满足大数据量分析要求的问题,提出一种针对大量网络招聘文本的技能信息自动抽取方法。[方法/过程]根据网络招聘文本的特点,利用依存句法分析选取候选技能,然后提出领域相关性指标衡量候选技能,将其融入传统的术语抽取方法之中,形成一种网络招聘文本技能信息自动抽取方法。[结果/结论]实验表明,本文提出的方法能够从网络招聘文本中自动、快速、准确地抽取技能信息。  相似文献   

8.
[目的/意义] 采用hLDA从专利语料库中抽取层次主题,以描述隐藏在专利文本中的技术结构,并基于层次主题随时间变化情况进行技术演化分析。[方法/过程] 从专利术语中获取闭频繁项集,并基于此建立关联规则网络来度量术语的重要性和术语间语义关系强弱,进而对语料库进行重构,并对不同时间片段的专利集合进行层次主题结构抽取。[结果/结论] 将本方法应用于硬盘驱动器磁头领域的专利数据分析,实证结果表明该方法是一种可行和有效的技术演化分析方法。  相似文献   

9.
[目的/意义]以主题短语识别为研究对象,提出基于PhraseLDA模型的主题短语挖掘方法,为快速理解文本内容、准确抽取文本主题提供借鉴思路。[方法/过程]对低频词进行量化定义,提出一种合理的短语重要度计算方法,最终利用PhraseLDA主题模型推理出主题短语。[结果/结论]实验结果表明该方法在多种数据集中挖掘出的主题短语质量较高,主题一致性较强。  相似文献   

10.
北京市三甲医院门诊患者互联网健康信息查寻行为研究   总被引:3,自引:1,他引:2  
[目的/意义]探讨患者的互联网健康信息查询行为特征。[方法/过程]通过对400例北京市三级甲等医院门诊患者进行问卷调查,分析患者对互联网健康信息内容需求的分布情况和关联性,总结出患者互联网健康信息的查询模式,同时对患者互联网健康信息查询路径进行分析。此外,以患者对互联网健康信息查询渠道的使用率和可信性评价为基础,区分患者信息查询渠道类型。[结果/结论]提出3种查询模式,区分出4种患者信息查询渠道类型,对互联网健康信息服务建设具有指导意义。  相似文献   

11.
This paper provides an overview of the research into current medical vocabularies and their impact on searching the Web for health information. The Web provides growing opportunities for laypersons to gain knowledge about specific health conditions, though research to date has been incomplete. Many studies have examined aspects of controlled medical vocabularies. Other studies have examined aspects of medical Web searching vocabularies. In this context, there is a growing need to examine more closely laypersons' Web queries using controlled medical vocabularies that were designed to serve the needs of medical professionals. It may be the case that the average consumer of Web health services is not able to use correct medical terminology, and may not be able to choose analogous or synonymous terms from a search result list. Our review suggests a growing need for studies to examine the current applicability of controlled medical vocabularies as well as alternatives to semantic query by Web search engine users.  相似文献   

12.
In the information retrieval process, functions that rank documents according to their estimated relevance to a query typically regard query terms as being independent. However, it is often the joint presence of query terms that is of interest to the user, which is overlooked when matching independent terms. One feature that can be used to express the relatedness of co-occurring terms is their proximity in text. In past research, models that are trained on the proximity information in a collection have performed better than models that are not estimated on data. We analyzed how co-occurring query terms can be used to estimate the relevance of documents based on their distance in text, which is used to extend a unigram ranking function with a proximity model that accumulates the scores of all occurring term combinations. This proximity model is more practical than existing models, since it does not require any co-occurrence statistics, it obviates the need to tune additional parameters, and has a retrieval speed close to competing models. We show that this approach is more robust than existing models, on both Web and newswire corpora, and on average performs equal or better than existing proximity models across collections.  相似文献   

13.
刘畅  宋筱璇 《图书情报工作》2017,61(16):122-134
[目的/意义]用户的检索式行为是用户信息搜索的重要环节,本文拟通过综述的形式对这些研究进行梳理,形成较为完整的综述。[方法/过程]通过对国内外相关文献的梳理,将检索式构建行为划分为检索词、检索式和会话层三个层面,以及词汇、语法和语义三个维度,对每个维度及不同维度之间的研究的区别与联系进行讨论,并对检索式的重构行为、检索式的质量和效果评估、以及影响用户检索式行为的要素等几个方面的相关研究进行总结。[结果/结论]已有研究对于检索式行为中的检索词和检索式的词汇研究较为丰富,未来需要增加对检索式的语法和语义的研究,以便深入理解用户的检索式构成特征。另外,关于检索式重构的类别和模式的自动识别的探索有所不足。在检索式的质量和效果评估方面,还需结合多种情境因素,更深入地研究易于用户理解和利于其搜索的检索式推荐模式。  相似文献   

14.
It has been shown that accessing the patients’ own electronic health records (EHR) can enhance their medical understanding and provide clinically relevant benefits. However, languages that are difficult for non-medical professionals to comprehend are prevalent in the EHR notes. The valuable and authoritative information contained in the EHR is thus less accessible to the patients, who ultimately stand to benefit the most from the information. To address this challenge, we are developing a system to retrieve EHR note-specific online consumer-oriented health education materials. We explored several query generation methods to convert long EHR notes to effective queries, including topic models and key concept identification. Our experiments show that queries using key concepts identified by a learning based model with pseudo-relevance feedback significantly outperform the baseline system of using the full text note.  相似文献   

15.
基于结构对Web网页区域分割与语义识别,实现网页语义理解,给出Web多媒体相关文本的定义,并结合其分布特点,采用个体级、区域级、网页级三级分析方法分别进行提取,从而实现Web多媒体相关文本准确提取。  相似文献   

16.
[目的/意义]分析并提出虚拟健康社区文本数据的知识发现策略,构建虚拟健康社区文本数据知识发现模型。[方法/过程]通过总结分析虚拟健康社区文本数据特点,针对其特点带来的数据挖掘困难制定相应的知识发现策略,并在DIKW体系指导下,依据提出的知识发现策略构建虚拟健康社区文本数据知识发现模型。通过应用计算机编码、自然语言处理技术、句法分析、制定推理规则等方法实现从自由文本数据到药物不良反应智慧的数据价值升华过程。[结果/结论]通过实证研究验证提出的知识发现策略和知识发现模型的有效性和可操作性,为后续虚拟健康社区文本数据知识发现的相关理论与实证研究提供参考。  相似文献   

17.
一种改进的余弦向量度量法文本检索模型   总被引:2,自引:1,他引:1  
付永贵 《图书情报工作》2011,55(19):115-119
针对用户对索引项要求的不同提出改进余弦向量度量法(ICVMM)文本检索模型,该模型将索引项分为主索引项和特征索引项,根据查询相关文本集中特征索引项相关性概率值来修改文本和查询特征索引项的初始权值;通过实例对传统余弦向量度量法(TCVMM)文本检索模型和ICVMM文本检索模型的查询效率进行对比,说明ICVMM文本检索模型的查询结果更接近用户的需求。  相似文献   

18.
[目的/意义]数据源描述(又称数据源摘要)是Deep Web集成检索领域存在的关键问题之一,数据源描述的质量直接影响着集成检索系统的检索效率和效果。本文提出一种基于领域特征和用户查询取样的数据源描述方法,以期为非合作环境下资源集成应用与研究提供参考和借鉴。[方法/过程]该方法为异构非合作型数据源的离线取样方法,通过分析数据源和用于查询的领域主题属性,依次构建领域特征词集、初始特征词集和高频特征词集,并最终获得以高频特征词查询取样的数据源描述信息。结合流行的CORI算法,深入分析基于推理网络的用户查询与数据源描述的相关度计算方法,并基于此方法设计基于Lemur工具集的集成检索系统,验证了上述方法的有效性。[结果/结论]所提方法在查全率和查准率方面均得到很好的表现。与其他方法相比,该方法在样本数据自动更新和运维管理方面具有明显成本优势和实用价值。  相似文献   

19.
We evaluate five term scoring methods for automatic term extraction on four different types of text collections: personal document collections, news articles, scientific articles and medical discharge summaries. Each collection has its own use case: author profiling, boolean query term suggestion, personalized query suggestion and patient query expansion. The methods for term scoring that have been proposed in the literature were designed with a specific goal in mind. However, it is as yet unclear how these methods perform on collections with characteristics different than what they were designed for, and which method is the most suitable for a given (new) collection. In a series of experiments, we evaluate, compare and analyse the output of six term scoring methods for the collections at hand. We found that the most important factors in the success of a term scoring method are the size of the collection and the importance of multi-word terms in the domain. Larger collections lead to better terms; all methods are hindered by small collection sizes (below 1000 words). The most flexible method for the extraction of single-word and multi-word terms is pointwise Kullback–Leibler divergence for informativeness and phraseness. Overall, we have shown that extracting relevant terms using unsupervised term scoring methods is possible in diverse use cases, and that the methods are applicable in more contexts than their original design purpose.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号