共查询到20条相似文献,搜索用时 109 毫秒
1.
专利数据包含了各种丰富的信息.通过对专利数据聚类,可以将它们划分为语义或结构上相似的子集,从而为发现数据中所蕴含的有用模式和知识提供更为深入的洞察力.传统的专利数据聚类方法通常只是利用专利数据的某项属性实现聚类,没有充分利用专利数据所包含的多种丰富信息.本文针对现有专利数据聚类方法的不足,提出了一种综合利用专利摘要文本和IPC分类号的专利聚类方法PDICluster.该方法通过解析IPC分类号中包含的树型结构信息,利用树距离度量专利数据之间的相似性,并综合专利摘要文本和IPC分类号相似性信息来实现专利数据聚类.实际专利数据上的聚类实验结果验证了PDICluster方法的有效性. 相似文献
2.
自组织映射(SOM)是一种基于人工神经网络的聚类方法,通过将相似的输入数据映射到相同或者相近神经元达到相似相聚的目的,有着不需要先验知识、保持拓扑结构不变、无监督自我学习和易于可视化的优点。由于专利文献有着数量大、文字晦涩冗长、专业性强等特点,分析难度较大,自动聚类分析能挖掘专利文献内在相似性,作为基础性处理用于后期应用,例如专利数据清洗、专利检索、主题分析和专利地图生成等众多领域。基于SOM的专利文本聚类与传统聚类方法相比效率和准确率较高,并且易于可视化展示。本文使用了SOM、k-means和TwoStep算法分别在专利文本聚类中作了对比,得出SOM较优的结论。 相似文献
3.
协同推荐中基于用户-文档矩阵的用户聚类研究* 总被引:1,自引:0,他引:1
针对个性化推荐服务的需要以及用户聚类处理时用户-文档访问数据的高维稀疏性问题,采用“比对降维”的思想和K层次聚类算法,分析基于用户资源评价数据的用户聚类处理流程。在此基础上,采用Java开源技术设计并实现一个用户聚类的试验系统。 相似文献
4.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。 相似文献
5.
赵华茗 《现代图书情报技术》2015,(1):82-88
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。 相似文献
6.
[目的/意义]基于专利共被引聚类和专利组合分析构建关键技术识别分析框架,可为产业、企业决策和规划提供参考依据。[方法/过程]首先通过专利共被引聚类获得若干个聚类簇;再通过领域专家对聚类簇进行判读和命名;最后从专利活动和专利质量两个维度对聚类簇进行专利组合分析,其中专利申请数量和被引频次均较高的专利簇即为关键技术。[结果/结论]与已有方法比较研究表明,本方法不仅可以有效识别产业关键技术,还能在中观的产业层面揭示出切合实际需求的技术方向,也可为企业根据自身需求制定不同的技术发展战略提供指导。 相似文献
7.
文章在对DBSCN与K-means两种经典聚类算法分析研究基础上,结合中文文本数据的特点,对这两种方法进行结合与改进,提出了一种中文文本聚类方法:DKTC。该算法能自动产生簇的个数,且对“噪声”或异常数据不敏感,对数据的输入顺序不敏感,另外,与DBSCAN相比,该算法有更高的处理效率。实验表明,DKTC算法不仅能对中文文本进行聚类,且与传统DBSCN与K-means法相比,聚类效果都有一定程度的改善。 相似文献
8.
利用聚类分析工具可以从海量的、日益增长的基因表达数据中解析出其中可能的编码基因及其生理功能,这是生物信息学中一项很有意义的工作。模糊聚类算法是一种常用的基因表达数据聚类分析工具,可以发现重叠的基因簇,它不强制将每个基因归入某个具体的聚类中,而是计算每个基因对各个类的隶属度。本文分析了基因表达数据的模糊聚类分析方法及其重要应用。 相似文献
9.
10.
聚类搜索引擎发展现状研究 总被引:3,自引:0,他引:3
分析研究搜索引擎发展轨迹及国内外聚类搜索引擎的发展现状,通过对国内外现有聚类搜索引擎功能的分析,提出“以用户为中心”的聚类2.0搜索是未来聚类搜索引擎,乃至搜索引擎的发展趋势。 相似文献
11.
专利情报分析软件的现状和趋势 总被引:10,自引:0,他引:10
通过对典型专利情报分析软件的分析,探讨专利情报分析软件的现状和趋势,认为专利情报分析软件的发展其有利用文本挖掘技术和信息可视化技术,进行因素相关分析,网络数据库与信息分析软件相结合的发展趋势,同时指出对专利的分析目前尚不能完全代替人工分析。 相似文献
12.
13.
14.
随着专利数据量的激增和新技术领域的交错重叠,迫切需要在专利信息分析中深化到内容层次,内容挖掘是其中的重要途径和必要手段。借鉴文本内容挖掘的思想和技术,提出基于内容挖掘的专利信息分析的方法体系,分别阐述方法体系中包含的专利文本信息预处理、专利信息内容分析和专利信息知识处理过程的主要步骤及其涉及到的各种技术和算法。最后,以混合动力汽车领域专利信息的内容挖掘为例进行实证研究。 相似文献
15.
在线专利分析软件的应用:企业技术创新性与竞争性分析 总被引:2,自引:0,他引:2
按照项目研发的规划,在线专利分析软件分成三个子系统开发。前期基于特征项和指标项的子系统的研发初步完成,为了检验软件应用效果并为后续研究提供依据,选择以中兴通讯的专利分析为例,利用自主研发的软件,从自身实力、行业环境、竞争对手三个方面进行专利信息研究,并通过在线专利分析软件的应用达到考察企业技术创新性和竞争性的目的。 相似文献
16.
从专利分析管窥高校知识产权信息服务中心建设——以南方医科大学为例 总被引:1,自引:0,他引:1
文章通过专利产出分析探索高校知识产权信息中心建设途径。基于Innography检索南方医科大学近30年专利,分析总体态势、有效专利、技术类别、专利受让、专利强度等,总结专利产出与转移转化的态势。提出南方医科大学知识产权信息服务中心建设策略:关注已授权PCT专利,提高PCT国际申请授权率;建立专利布局与预警机制,重视高强度权利;提高有效专利占比,加大国际专利申请力度;推进高校知识产权贯标,加强知识产权转移转化;筹建知识产权信息服务中心,助力高水平大学建设。在分析高校知识产权信息服务中心成立沿革、专利信息服务是高校知识产权信息服务主要形式的基础上,提出以专利信息服务为重点推进知识产权信息服务,对标高校国家知识产权信息服务中心的建设思路。 相似文献
17.
专利情报分析在科研项目立项中的应用研究 总被引:2,自引:0,他引:2
科研立项是科研项目最重要的基础性环节,运用专利情报分析方法,包括专利地图、引文分析、专利挖掘等方法,可以为综合性科研项目立项提供研发方向、竞争对手状态、方案规划等辅助决策信息,可以为专业性科研项目提供技术细节、技术方案设计、规避侵权等辅助信息。 相似文献
18.
19.
网络环境下专利竞争情报源的适应性分析——兼析Delphion IPN 总被引:1,自引:1,他引:0
作为竞争情报研究的一个重要内容,加强专利信息分析及其应用是实施知识产权保护战略的非常重要的一个方面。选择一个有效的、能充分适应专利竞争情报研究要求的网络专利信息源是专利信息分析的前提与保障。文章探讨在网络环境下选择专利竞争情报源应该考虑的因素,并以Delphion IPN为例分析其作为网络专利竞争情报源的适应性特征和优势。 相似文献
20.
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。 相似文献