首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
孟秋晴  熊回香 《情报科学》2021,39(6):152-160
【目的/意义】为了向在线医疗社区中的用户自动推荐符合其自身实际需求的医生,本文基于在线问诊文本 信息,提出了基于相似用户与相似医生的混合医生推荐算法。【方法/过程】首先从用户咨询问题出发,找到具有相 似咨询问题的用户,将其所选择的医生作为基于相似用户的推荐集合;然后从医生回答从发,通过LDA主题模型训 练,从医生回答文本集中挖掘出隐含的疾病主题,按主题查找具有相似疾病诊治经验的医生作为推荐集合;最后通 过混合相似度计算融合基于相似用户和相似医生的推荐结果,得到最终推荐列表。【结果/结论】通过对在线医疗社 区“39健康网”进行实证研究,结果表明,利用本文提出的方法进行推荐,能够有效降低数据维度,挖掘文本间的潜 在语义关联,有效缩小语义鸿沟,提升推荐质量,具有较好的推荐效果。【创新/局限】本文仅选取了针对科室的小样 本数据进行实验,且部分参数使用经验值,未来可深入探讨该方法在大规模医疗数据集上的应用。  相似文献   

2.
【目的/意义】为在线医疗问诊平台中的医生自动生成高质量标签,更好地服务于对医生资源的分类、检索和管理。【方法/过程】基于在线问诊文本信息,提出了结合时间周期特征与文本主题特征的医生标签自动生成算法。首先根据医生相关文本信息提取关键词生成候选标签,然后从患者问题文本和医生回答文本两个方面进行LDA主题模型训练,按时间周期挖掘出问题文本和回答文本的主题特征,对候选标签进行质量控制;最后经标签加权混合后得到最终的医生标签。【结果/结论】实验结果表明,该标签自动生成算法能够反映出医生标签生成的动态性,能够准确生成符合医生专业知识特征的高质量标签,具有较好的标签生成效果。  相似文献   

3.
【目的/意义】随着我国科技水平的不断提升,越来越多的科研人员致力于研究如何客观有效地评估科技论 文的质量。【方法/过程】本文提出了基于文本挖掘和文献计量的科技论文评估方法,该方法首先利用论文的引用 频率计算得到训练论文的质量,其次分别使用LSI和LDA方法来计算新论文和训练论文之间的相似度,设计论文质 量评估算法,根据训练论文的质量和论文间的相似度加权计算得到新论文的质量评价值。【结果/结论】在涉及多主 题和单一主题的数据集上的实验结果表明,本文提出的方法能够适用于包含多个主题的论文集,其计算出来的论 文质量值真实有效。  相似文献   

4.
郭雪梅 《情报科学》2020,38(2):68-74
【目的/意义】为了提高信息服务的质量,文章融合“用户-标签-资源项”关系模型以及时间因素对于用户 标注资源的影响,提出了一种个性化推荐方法。【方法/过程】首先建立起“用户-标签-资源项”三者之间的关系模 型,分别计算用户对标签的偏好程度以及资源与标签的相关程度,以此为基础进行用户相似性和资源项相似性的 度量;然后,考虑标签使用的时间因素对用户兴趣偏好的影响结合基于用户标注行为的用户相似性以及资源项相 似性度量方法提出了改进的个性化推荐方法。【结果/结论】提出了一种综合标签和时间因素的推荐算法,该方法利 用标签使用频率描述用户偏好,并结合标签使用的时间因素动态更新用户偏好,提高推荐精度。该方法应用于医 学信息服务应用场景之中,并收集实验数据,最后将提出的方法与其他基于标签信息的协同过滤推荐方法在实验 数据集进行比较,实验结果发现该方法在推荐效果上优于对比方法。  相似文献   

5.
陈晨  侯景瑞  吴任力  王平 《情报科学》2019,37(7):139-145
【目的/意义】社会化问答社区现已成为网络用户共享、传播及获取知识的重要平台,但其开放性和交互性 也给其问题推荐工作带来了巨大的挑战。本文提出的基于多源混合标签的方法能够有效提高社会化问答社区的 问题推荐质量,以促使问题得到及时有效地解决。【方法/过程】利用自动标签标注系统从问答文本中提取关键词, 将语义扩展后的关键词作为基本标签,并建立多源混合标签库;利用标签表示用户的兴趣偏好与权威度,并建立用 户特征模型;最终通过协同过滤的方式进行匹配推荐。【结果/结论】实验结果表明,本文提出的基于多源混合标签 的问题推荐方法在检全率、检准率以及F值等指标方面均不同程度地优于基于文本相似度的基准方法。  相似文献   

6.
程雅倩  黄玮  金晓祥  贾佳 《情报科学》2022,39(2):155-161
【目的/意义】由于自媒体平台中的多标签文本具有高维性和不平衡性,导致文本分类效果较差,因此通过 研究5G环境下高校图书馆自媒体平台多标签文本分类方法对解决该问题具有重要意义。【方法/过程】本文首先通 过对采集的5G环境下高校图书馆自媒体平台多标签文本进行预处理,包括无意义数据去除、文本分词以及去停用 词等;然后采用改进主成分分析方法进行多标签文本降维处理,利用向量空间模型实现文本平衡化处理;最后以处 理后的文本为基础,采用Adaboost和SVM两种算法构建文本分类器,实现多标签文本分类。【结果/结论】实验结果 表明,本文拟定的自媒体平台标签文本分类方法可以使汉明损失降低,F1值提高,多标签文本分类效果好,且耗时 较低,具有可靠性。【创新/局限】由于本研究中的数据集数量不够多,所以在测试和验证方面,得出的结果具有一定 局限性。因此在未来研究中期望利用更为丰富的数据库,对所设计的方法做出进一步的改进与创新。  相似文献   

7.
吴剑云  胥明珠 《情报科学》2021,39(1):128-134
【目的/意义】用户画像深刻地描述了视频用户的个体和群体行为特征,为视频的个性化推荐服务提供参 考。【方法/过程】通过文本挖掘对爬取的视频、用户及其观影数据分析,构建单个用户画像,并通过K-Means和LDA 模型对用户聚类并提取主题,挖掘群体用户特征。基于用户画像和时间指数衰减的视频兴趣标签,并结合视频喜 爱度和协同过滤,进行视频推荐。【结果/结论】考虑时间指数衰减的个性化推荐,提高了系统对用户兴趣的感知。 结合视频喜爱度和协同过滤,推荐视频评分达0.87,有助于提高用户对网站的忠诚度和活跃度。【创新/局限】基于用 户生成内容的文本挖掘结果,进行单个和群体用户画像,并创新性采用时间指数衰减构建用户视频兴趣标签,以捕 获用户兴趣的变化。由于网络爬虫的限制,实验数据量有一定的局限性,且特征提取兴趣范围有限。  相似文献   

8.
【 目的/意义】研究从用户群体的角度出发,依据用户特征对社区用户进行群体划分,以了解不同用户群体的 主题差异,从而更加全面清晰的了解社区主题,更好的为社区用户推荐资源。【方法/过程】研究利用社会网络分析 和Topsis算法对用户群体进行划分,再利用LDA模型分别对不同用户进行主题挖掘,最后采用谱聚类实现主题优 化。【结果/结论】科学网情报学社区的核心用户与一般用户群体主题有相同的部分,也存在差异,核心用户群体的 主题专指性较强,一般用户群体的主题较为广泛。基于虚拟学术社区用户群体主题挖掘模型,可以更加全面展示 社区用户关注的主题,更好地为社区用户推荐资源。【创新/局限】研究从用户群体的视角出发,提出了虚拟学术社 区用户群体主题挖掘模型,更好的为社区用户推荐资源,但本研究在数据量、主题模型以及社会网络分析指标的选 取等方面还需要拓展与延伸。  相似文献   

9.
【目的/意义】医生同时兼具提供医疗服务的社会工作者和从事科学研究的科研工作者双重身份,因而需要从更全面、立体的角度组织管理和利用互联网中多源的医生数据用来构建医生画像,对于患者寻求医疗救助、提高健康服务质量具有重要作用。【方法/过程】在提出医生画像概念的基础上,以医院官网、百科类网站、文献数据库、在线健康社区等数据源为基础,提出基于特征分析和标签提取的医生画像构建模型,分别从医生的人口统计属性、简介特长、科研成果、科研合作、患者在线评价五个方面构建医生画像,最后在此基础上进行实证研究,以可视化的方式展示医生画像。【结果/结论】基于特征分析和标签提取的医生画像构建模型能够全面描述医生信息并将其以更加直观的形式展示出来,从而推动为患者提供个性化的健康服务和精准的医生推荐等研究的发展。  相似文献   

10.
【目的/意义】从开放政府数据主题的多个政策文本的语义挖掘出发,发现多个政策文本内容间的语义关 系,探索能降低人工干预,实现多政策文本协同性自动化分析的方法。【方法/过程】利用数据挖掘的关联规则算法 对经过预处理的开放政府数据政策文本进行语义挖掘,按照得到的有效强关联分析多政策文本间的协同性。【结 果/结论】以开放政府数据主题的多个政策文本为研究对象,确定置信度为 0.7,提升度大于 3时得到的有效强关联 规则数量较稳定;经过不同层次的政策文本关联规则分析,可以得到与人工分析基本吻合的结论,验证了该方法可 以应用于多政策文本语义协同性的定量研究。【创新/局限】采用数据挖掘中的关联规则算法完成数据政策多文本 的协同性知识推理研究,有效的实现了语义自动化计算的问题。实验中政策词表的完整性、数据预处理过程、参数 设定等环节都会对实验结果准确性有影响,需进一步降低人工干预影响。  相似文献   

11.
易明  秦涵  蒋武轩 《情报科学》2020,38(2):29-38
【目的/意义】基于标签系统所蕴含的语义信息与隐性社会网络,构建融合标签概念空间及用户网络的语义社 团发现模型,提高社团发现的质量。【方法/过程】通过构建标签的概念空间挖掘标签间的语义关系,并根据标签包 含的隐性社会网络发现用户网络,进而将两者结合融入到社团发现算法中,并以豆瓣网数据对模型进行实证。【结 果/结论】标签概念空间及用户网络能够提升语义社团发现算法效果。  相似文献   

12.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

13.
【目的/意义】随着越来越多的人使用在线健康社区进行健康咨询,研究医生主页信息对患者线上问诊的影响,以期了解患者线上问诊时的信息需求,丰富在线健康服务领域的研究,帮助医生针对性地提高服务质量,更好地为患者提供医疗服务。【方法/过程】本研究基于信任源理论和服务质量理论,从技术信任、功能信任、声誉信任和形象信任四个维度构建患者线上问诊模型,收集好大夫在线网站数据,使用计量经济学方法验证模型。【结果/结论】医生的技术信任、功能信任和形象信任均正向影响患者线上问诊,其中推荐热度、接诊患者数和医生头像的影响程度更大。高风险疾病患者更在意医生的接诊患者数和服务满意度。【创新/局限】医生头像是取得患者信任的来源之一,但少有研究涉及医生头像,本研究将医生是否上传个人头像作为形象信任纳入模型。但本研究的数据仅来源于一个在线健康社区,未来可以基于多个在线健康社区的医患数据进行研究。  相似文献   

14.
李湘东  阮涛  潘练 《情报科学》2018,36(4):14-21
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。  相似文献   

15.
周源  刘怀兰  杜朋朋  廖岭 《情报科学》2017,35(5):111-118
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环 境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:①基于文本网 络和改进PageRank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;②增加特征值IDF值 的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的 不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分 类效果,验证了该方法能够有效提高文本特征词提取的准确度。  相似文献   

16.
王井 《情报科学》2020,38(3):54-59
【目的/意义】通过订阅记录获取用户兴趣爱好,并将协同过滤推荐方法应用于图书个性化推荐,为读者提供优质服务。【方法/过程】以协同过滤算法为基础,根据用户订阅记录,分别计算用户相似性和订阅图书相似性。针对传统协同过滤方法在计算热门订阅相似度时存在的缺陷,引入对订阅权重的惩罚机制,减轻了热门订阅会和很多订阅相似的可能性,并根据协同过滤方法,产生相应推荐结果。【结果/结论】运用公开可获取的数据集进行的算法验证表明,基于订阅记录的协同过滤算法推荐准确度较高,对提升用户图书借阅体验相关研究与实践有一定的参考价值。  相似文献   

17.
高欢  那日萨  杨凡 《情报科学》2019,37(11):48-52
【目的/意义】准确挖掘消费者在线评论情感倾向,对于改善商家服务具有重要意义,而情感倾向预测的准 确性仍需提高。【方法/过程】文中设计基于集成学习的在线评论情感分类算法,即以N-gram算法分析在线评论词 语特征,结合情感词典构造文本特征,利用逻辑回归、Light GBM等机器学习方法为基础的集成学习进行训练,实现 在线评论情感分类。【结果/结论】实现了评论的情感倾向预测,在电脑评论数据集,较之于经典的SVM算法和无监 督类算法,该模型的分类衡量指标F1值分别提高了10%到30%不等。同时,在酒店、图书等不同领域的数据集上显 示,该方法的分类准确性仍具有上述效果,证明了该方法具有领域移植性。  相似文献   

18.
曾金  贺国秀 《情报科学》2019,37(3):136-140
【目的/意义】基于社交媒体用户分享的图像、博文及用户标签数据,为用户推荐潜在的好友,从而更好的为 用户做个性化推荐和精准化服务。【方法/过程】在获取微博用户分享的图像、博文及用户标签的基础上,通过使用 深度学习的方法利用图像、博文及用户标签数据来表达用户兴趣特征,基于这三类特征组合,通过计算用户之间的 余弦相似度来挖掘与目标用户兴趣最相近的若干个候选用户。同时,探讨了多模数据在无监督学习下的用户推荐 问题,并与单模数据进行比较。【结果/结论】实验结果表明,利用图像、博文和用户标签合成的多模数据对用户的兴 趣进行建模并进行好友推荐较单模数据效果好。  相似文献   

19.
基于多因素方差分析的文本向量特征挖掘算法   总被引:2,自引:0,他引:2  
文本向量特征挖掘应用于信息资源组织和管理领域,在大数据挖掘领域具有较大应用价值,传统算法精度不好。提出一种基于多因素方差分析的文本向量特征挖掘算法。使用多因素方差分析方法得到多种语料库的特征挖掘规律,结合蚁群算法,根据蚁群适应度概率正则训练迁移法则,得到种群进化最近时刻获得的数据集有效特征概率最大值,基于最优划分的K-means初始聚类中心选取算法,先对数据样本进行划分,然后根据样本分布特点来确定初始聚类中心,提高文本特征挖掘性能。仿真结果表明,该算法提高了文本向量特征的聚类效果,进而提高了特征挖掘性能,具有较高的数据特征召回率和检测率,时间耗时较少,在数据挖掘等领域应用价值较大。  相似文献   

20.
丁亮  何彦青 《情报科学》2017,35(10):125-132
【目的/意义】无论是统计机器翻译,还是神经机器翻译,训练数据通常来源复杂,主题多样,文体不一,与待 翻译目标文本的领域不能保证完全一致,导致领域自适应问题。目前机器翻译的领域自适应方法大多用主题模型 得到主题信息,将数据粗略划分为领域内(in-domain)和领域外(out-domain),缺乏更为明确的领域标签。【方法/过 程】本研究采用中图分类号作为领域标签,采用两种方法对汉语句子进行自动领域标注领域: 利用论文关键词和科 技词系统等知识组织构建领域知识库的领域标注方法;训练卷积神经网络的深度学习的领域标注方法,通过神经 网络深度融合模型将这两种方法融合起来得到效果更佳的领域标注器,利用机器翻译的测试集获取领域标签集合 筛选其训练数据。【结果/结论】经过在神经机器翻译系统上进行测试,针对两个特定领域测试集,仅利用部分训练 数据就获取了比原始训练数据高约1.3BLEU得分(相对5.4%)的翻译结果,证明了本研究方法的有效性和可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号