基于K-means聚类挖掘智能机器人领域技术创新人才.pdf
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
3 0人已下载
| 下载 | 加入VIP,免费下载 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 means 挖掘 智能 机器人 领域 技术创新 人才
- 资源描述:
-
1、基于 K-means 聚类挖掘智能机器人领域技术创新人才赵宁?赵翀?翟凤勇刘伟?郭伟摘 要 以智能機器人领域为例,借助机器学习的方法挖掘技术创新人才,消除专家分类的主观性。通过专利信息构建技术创新人才评价指标体系,结合主成分分析、K-means聚类,进行技术创新人才有效分类;利用 DWPI 手工代码挖掘智能机器人领域对应的创新人员及相应的技术团队成员,对于技术创新人才分类有进一步优化空间。K-means 聚类改进了传统的识别方法,突破人工统计的局限,可以处理数量级更大的数据,对数据挖掘可以进行及时、准确、直观的分析。关键词 专利信息 聚类分析 技术创新人才 K-means分类号 G252.62
2、DOI 10.16810/ki.1672-514X.2020.03.009Abstract Taking the intelligent robot field as an example,by means ofmachine learning,the subjectivity of expert classification can be eliminated.The evaluation index system of technological innovation talents is constructedby patent information,and the effective
3、 classification of technologicalinnovation talents is carried out by combining principal component analysisand K-means clustering.The corresponding innovation personnel andcorresponding technical team members in the field of intelligent robot aremined by DWPI manual code,which has further optimizati
4、on space for theclassification of technological innovation talents.K-means clusteringimproves the traditional recognition method,breaks through the limitationsof artificial statistics.It can deal with larger data of order of magnitude,and can analyze data mining timely,accurately and intuitively.Key
5、words Patent information.Cluster analysis.Technological innovativetalents.K-means.专利作为一种标准化、公开透明、客观化的文献,由于其所载信息贯穿科研流程和活动的不同阶段,对技术发明有详细描述,不仅可以从本质上揭示技术创新能力1,而且常作为技术创新的重要指标,被嵌入各种技术创新能力量化的评价体系中,以便简化评价流程而得到可靠的评价结果2。基于专利文献反映技术创新活动相应的特征,本文拟以智能机器人技术专利文献为例,运用 K-means 聚类,通过构建专利信息构建技术创新人才评价指标体系,进行技术创新人才有效分类分析,
6、以便于科研管理者或者政策制定者掌握技术人才的优势,进行机构中人员的科学配置,提升机构的科研竞争力。除此以外,还可通过聚类发明人,寻找不同科研层次水平的划分标准,进行技术创新人才聚类,有助于人才所属类型的判断,类似于技术创新人才分析中战略上的规划,不仅可以为国家发掘智能机器人领域的技术创新人才,还可以进行技术战略布局,推动整个智能机器人行业的发展,更能细化申请资助和激励政策,有助于针对性政策的制定3。1 专利信息分析技术创新人才结构及界定基于专利信息的分析角度,宏观上,可以挖掘技术创新团队,审视发明人在团队中的重要性;微观上,可以判断专利的技术水平,判别发明人的技术创新能力4。如结合以往的研究,
7、使用专利数据可衡量地区技术创新现状5,从专利数量、发明人角度对高校技术创新进行评价6;结合合作研究、有效专利年限对高校技术创新能力进行评价7。根据专利信息统计所分析的对象不同、目的不同,学者们定义了很多专利信息内容统计指标,从不同角度揭示专利信息内容对应技术创新能力的关系。基于专利信息分析技术创新能力的研究,大多是对技术企业竞争力的分析,而从人才特征来分析挖掘创新能力的不多。基于此,本文拟根据技术创新人才特征,基于专利信息指标与技术创新能力的对应关系,以专利信息为主要数据对于技术创新人才从三个维度界定,提出技术创新人才的“三维一体”结构特征,如图 1 所示:2 基于专利分析的技术创新人才评价指
8、标体系技术创新人才评价指标体系指标的选取,需要从多个层面、多个角度综合地对技术创新能力进行评价。首先基于不同领域技术创新人才能力的考虑,选择相应的分析内容,利用所选评价方法对于专利技术水平评价指标权重设置。其次根据所反映的技术创新人才三维水平结构去设计评价体系,再根据专利信息组合分析的思想将评价指标分为专利数量指标、专利质量指标、专利价值指标,这主要基于发明专利的分析,通过专利指标揭示技术创新信息和水平,如表 1 所示。3 基于 DI 的技术创新人才的专利指标体系本文选取科睿唯安(Clarivate,原汤森路透公司)的德温特创新平台 DerwentInnovation(DI)数据库作为样本进行
9、分析。该数据库整合了全球专利情报,收录来自全球超过 50 家专利授予机构(涵盖 90 多个国家和地区)的专利信息、超过 1 亿篇专利。对收录的专利文献,由专家进行深度加工改写生成德温特世界专利索引(DWPI),保证检索全面、具有专业权威性。专利发明人的著录方式在不同数据库中有所不同,基本都涉及中国人名和外国人名消歧问题。整体来说,DI 数据库的姓名信息完备程度比较高,部分发明人为姓拼音+名首字母缩写,也需要通过数据清理判别是否为同一发明人,比如 JonesJoseph L.和 Jones JL 为同一发明人,因此选取 DI 专利数据的检索结果,结合科睿唯安的另一款产品德温特数据分析平台 Der
10、went Data Analyzer(DDA)和手工进行数据清洗来分析发明人12。对于技术创新人才的挖掘评价需要有科学性、可测量性、可行性,符合目标管理的原则8。结合上述技术创新人才指标体系的研究,基于 DI 检索及所输出的指标,组合及计算,统计分析发明人的相关可以获得的指标,筛选后的指标构成技术创新人才能力评价体系。这种体系应该是一个多层次的体系,能准确反映技术人才能力的各个方面,如图 2 所示,包括以下众多元素:第一发明人专利数、专利申请量、专利授权量、专利授权率、专利有效量、专利有效率、国际同族专利数、总共合作其他作者人员数、专利平均合作发明人数、总共合作专利数、IPC 大类数、IPC
11、小类数、DWPI 分类代码数、被引篇数、被引次数、被引百分比、引证率、H 指数、G 指数、平均专利权数。符合指标体系优化、相关性、注重专利质量作用、指标有量、有率的科学性原则。4 基于 K-means 的聚类分析用传统的分析方法已经不能处理大量不相关的数据,比如专利信息的不同指标。机器学习是建模隐藏的数据结构,然后做识别、预测分类等。对样本进行挖掘分析,采用根据具体训练数据开展机器学习,进一步获得分类模型,科学划分类别。当前的算法有很多,借助数据挖掘应用算法,进行发明人聚类,其中 K-means 是用均值算法把数据分类的机器学习算法,从而找到数据变量之间的关系,可以应用于大数据,从而精炼数据。
12、聚类和分类最大的不同在于,分类的目标是事先已知的,而聚类事先不知道目标变量是什么,类别没有像分类那样被预先定义出来,所以,聚类有时也叫无监督学习。通过发明人的专利信息指标统计,指标间有些隐含的相关性,综合多指标对应的数据,属于这种无监督学习,聚类分析试图将相似的发明人归入同一簇,将不相似的发明人归为不同簇,通过此挖掘类似的技术创新人才及技术创新人才团队。K-means 是一种聚类算法,据百度百科介绍这种算法是依赖于点的邻域来决定哪些点应该分在一个组中。当一堆点都靠的比较近,那这堆点应该是分到同一组,将数据分成 k个彼此排斥的类,返回分配给每个观察的类的指标,K-means 聚类对待数据的每个观
13、测点为一个空间的对象,同类的尽可能靠近,不同类的尽可能远些。可以选择不同的距离测度,取决于要聚类的数据的情况。每个类别被定义为其元素对象和中心点,使用 K-means,可以找到每一组的中心点,每个类别的中心点是该类中包含的元素距离之和最小的那个点。当然,聚类算法并不局限于 2 维的点,也可以对高维的空间(三维,四维等)的点进行聚类,任意高维的空间都可以9。K-means 算法流程如图 3 所示。(1)从数据集 X 中,随机选择 k 个中心点,作为初始聚类的中心;(2)针对所有对象的每一个中心距离进行相应的计算计算数据集中每个样本到聚类中心这 k 个点距离;(3)找到每个数据样本到聚类中心的最小
14、距离,并将数据样本归为与相同的类中,即;(4)重新计算中心点,调整聚类中心,即将聚类的中心移动到聚类的几何中心(即平均值)处,也就是 K-means 中的 mean 含义;(5)迭代中心点,重复(2)(3)迭代更新,直到准侧函数开始收敛,所得簇中心不再发生变化或者达到最大运行次数,其中平方误差准则函数计算公式为:其中 J 表示所有类中样本对象的平均误差总和,表示第 i 类中的聚类中心点,表示第i 类中的样本对象。(6)假设我们已经通过 K-means,将待分类数据进行了聚类,将待分类数据分为了 k个簇。对于簇中的每个向量。分别计算它们的轮廓系数,轮廓系数(SilhouetteCoefficie
展开阅读全文
课堂库(九科星学科网)所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。


2019届人教A版数学必修二同步课后篇巩固探究:2-1-1 平面 WORD版含解析.docx
