大数据背景下全球人工智能研究的回顾与可视化分析.pdf
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
1 0人已下载
| 下载 | 加入VIP,免费下载 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 背景 全球 人工智能 研究 回顾 可视化 分析
- 资源描述:
-
1、大数据背景下全球人工智能研究的回顾与可视化分析赖红波 赵逸维摘 要:以 Web of Science 数据库中大數据背景下的人工智能相关文献作为数据样本,借助 CiteSpace 软件,对这一领域的研究分布、研究热点、前沿研究等进行分析。研究发现,美国在该领域具有绝对的领导力,中国缺少具有关键性的文献,并且形成了分别以中美为核心的两个合作子网络;该领域还没有出现具有关键性意义的研究;深度学习是这一领域的研究前沿。目前这一领域还只是大数据和人工智能两门学科的交叉,还没有出现能够使其成为新的边缘学科的趋势。分析结果有助于了解该领域的发展和现状,为后续的深入研究提供参考。关键词:大数据;人工智能;共
2、被引网络中图分类号:TP18文献标志码:A文章编号:1673-291X(2020)15-0135-05引言人工智能和大数据是目前业界和学界都最十分热门的研究领域。韦氏词典将人工智能定义为:“机器模仿有智慧的人类行为的能力。”麦肯锡对大数据的定义是,一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合1;而我们平常更多的指的是对大数据进行的处理和分析2。大数据在很大程度上对众多领域造成了巨大影响,包括传统的企业3,如制造业4等,也包括新兴的如人工智能5。大数据是人工智能的三大基础之一,其作为训练人工智能的“原材料”,能在很大程度上影响人工智能的学习效率和效果;反
3、过来,人工智能的发展能大大地提高对数据的分析和处理能力。因此,两者之间有十分密切的联系,是互相交融、相辅相成的关系。然而,对于大数据背景下的人工智能这一交叉领域的研究还很少,起步时间也较晚,从 2012 年后才开始逐渐形成规模。在各自的学科领域内,大数据和人工智能都已经有了较多的综述研究以及知识图谱研究来概括描述学科研究的面貌;而两学科的交叉领域还几乎没有文献来描述。尽管发展晚、文献数量少,但这两个热点学科的交叉领域仍具有进一步深入研究的价值。因此,本文将对大数据背景下人工智能研究的相关文献进行科学计量与可视化研究,借助科学知识图谱工具 CiteSpace,通过“合作网络”“关键词共现网络”“
4、文献共被引聚类”等功能,梳理该领域中的分布情况,分析该领域的研究热点和前沿研究,以期从学术研究的角度提供更具价值参考信息,助力大数据背景下的人工智能更深层次的建设发展。一、数据与方法科学知识图谱是一种描绘科学知识发展进程与结构关系的图形,研究的对象是科学知识,在其背后则是复杂的数学模型6。在目前众多知识图谱工具中,陈超美教授开发的CiteSpace 知识可视化软件由于其鲜明的特征和优秀的表现而得到了广泛应用,成为目前最为流行的知识图谱绘制工具之一7。因此本文以 CiteSpace.5.4.R4 作为研究工具。考虑到 CiteSpace 并不支持对 CNKI 数据库导出的文献数据做共被引分析8,
5、CSSCI 则只包含了社会科学学科的文献,因此我们使用 Web of Science 数据库。搜索主题为“bigdata”以及(逻辑为 AND)“artificial intelligence”的文献,时间为数据库内所有年份(19862019 年),并将文献类型限定为会议论文、论文和综述;然后在结果列表界面点击“创建引文报告”,进行检索结果的扩展,得到这些论文的施引文献,得到两次检索除去自引的共计 4 520 篇文献。检索时间为 2019 年 10 月 1 日。这种宽松的检索取向有助于更加全面地研究诸如两学科交叉领域这样的文献数据较少的研究对象9。按照以上检索策略,去除掉数据字段缺失的文献,共
6、下载得文献记录 2 700 条,时间跨度为 19992019 年。将得到的 2 700 条文献记录导入 CiteSpace 中功能去重,最终得到 2 664 条文献记录,将其作为本次研究分析的数据样本。二、研究结果与分析(一)研究的分布利用 CiteSpace 的合作网络分析模块,对样本文献数据在国家和机构间的分布做出可视化分析。在 Node Types 中分别选择 Country 和 Institution,并将时间段按年分段,每一年提取排名前 50 位的数据来生成最终的网络。国家分布的结果(如表 1 所示),选取了两个指标下排名靠前的国家。其中中介中心性用来发现和衡量这一节点的重要性;具有
7、高中心性的节点(一般大于 0.1)通常是连接的关键枢纽10。从频次来看,中美两国的文献发表数量遥遥领先,体现了这两个国家对这一交叉细分领域的关注度和领导力。前十中也基本都是发达国家,但除中国外的另一发展中国家印度也值得关注。印度具有较强的 IT 实力,因此在大数据和人工智能的交叉领域也会有不错的发展。从中心性来看,与频次排名国家相比有较大的变化。美国的中心性高达 0.27,约为第二名的近两倍,说明了其发文多为关键的枢纽,具有突破性,是这一领域的领跑者,而中国虽然频次高但中心性较低,只有 0.1,重大突破的文献相比较少。沙特阿拉伯和奥地利的文献虽然数量不多,但也具有较高中心性,是这一领域不能忽略
8、的重要国家。机构的合作(网络如图 1 所示),节点大小代表发表文献的数量,具有高中心性的节点被紫色的圆圈出,连线代表合作关系。可以很明显地看到网络中的节点形成了分别以中国机构和美国机构为主两个合作子网络。中国这边以中国科学院为核心,有几个较为重要的高校如北大清华武大等,文章数量明显更多。美国一方的分布较为平均但连线十分密集,表明了其间更为密切的合作关系。重要的院校有哥伦比亚大学、威斯康辛大学以及加拿大的麦吉尔大学、滑铁卢大学等。在两个子网络之间还有几所重要的大学,其与两边都有较多的合作,比如美国麻省理工、哈佛医学院,英国牛津大学等伦敦大学学院等。两个主要的合作子网络各有特点:中国一边以几所机构
9、为核心带动其他的科研机构发展;欧美一方则是众多的机构共同发展,较为平均但数量众多。这些特点是由机构所在国家和地区的科研情况和科研政策决定的,两种模式下都有着很好的发展。但无论是何种方式,都表明了合作是推动科研进步发展的最重要因素之一;或许在将来,这两种模式之间可以互相有借鉴和学习。(二)研究热点和前沿文献关键词是一篇文章中高度凝练及集中概括的表现,通常出现频次较高的关键词被认为是一定时期的研究热点11。因此,本文使用文献关键词做主题词共现分析,这其中包括作者自己列出的关键词以及 WoS 数据库提取的扩展关键词;Node Type 选择 Keyword,整理后的部分结果(如表 2 所示)。大数据
10、和人工智能理所当然地位于频次的前两位,因为本文的研究对象即为这两个学科的交叉领域。其他排名靠前的关键词也来自于人工智能以及计算机数据等方面的学科,如系统、神经网络等等。发表的平均年份都在 2014 年左右,但其中早到了 2007 年如人工智能。从中心性来看,关键词的中心性普遍偏低,大于等于 0.1 的只有 5 个,表明这一领域具有高度突破创新的关键枢纽性的热点方向还未出现。其中,预测的中心性最高,并且平均发表时间也大大早于其他关键词,是这一领域较早成为较为关键枢纽的一个热点研究。另外,较为热点的研究关键词还有系统、大数据、人工智能和设计等。这些大多来自与大数据和人工智能两门学科中的重要研究方向
11、。大数据涉及各种大量的工作,包括数据的采集、存储、传输、分析、展示等等,这就使得大数据的系统12和设计成为十分重要的研究;人工智能方面,神经网络是目前其最热门的研究。而预测则代表了人们一直以来期望通过大量的历史数据来预测未来事件发生的愿望;在人工智能技术对大数据各个部分优化升级的同时,利用大数据训练出更优秀的人工智能有望在分析这一部分做出更大突破,从而实现“预测”。在 CiteSpace 中,研究前沿指正在兴起的理论研究和新主题的涌现,其是由引用共被引文献的施引文献集合组成的;共被引网络中的聚类的命名是通过施引文献中提取的术语确定的,这个命名就可以认为是研究前沿的领域。我们借助样本文献的共被引
12、网络来进一步地分析大数据背景下的人工智能研究前沿以及其演进趋势。节点类型选择 Reference,样式设置为年轮,其大小反映文献的被引次数,年轮圈代表文献的在不同年份的被引。排除掉较小聚类后得出的主要聚类(如图 2 所示),以关键词作为各聚类的标签。所得到的聚类的模块化指标达到了 0.9,表示共被引网络得到的聚类很好,结构十分显著;平均轮廓值高于 0.5,可以认为聚类结果是合理的。深度学习作为目前人工智能发展高潮的代表13,在大数据背景下仍然是最为前沿的研究;在经历了几十年的研究和实践后,研究人员发现深度学习可以挖掘大数据的潜在价值14;一种在大数据和人工智能中都经常使用的核最小均方算法也是研
展开阅读全文
课堂库(九科星学科网)所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。


2019届人教A版数学必修二同步课后篇巩固探究:2-1-1 平面 WORD版含解析.docx
河北省保定市物探中心学校第一分校高一语文课件:《荆轲刺秦王——人物分析》.ppt
