普通高中教科书·信息技术选择性必修3 数据管理与分析(沪科技版2019).pdf
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
9 0人已下载
| 下载 | 加入VIP,免费下载 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 普通高中教科书·信息技术选择性必修3 数据管理与分析沪科技版2019 普通高中 教科书 信息技术 选择性 必修 数据管理 分析 科技 2019
- 资源描述:
-
1、普通高中教科书上 海 科 技 教 育 出 版 社选择性必修 3选择性必修3数据管理与分析上海科技教育出版社信息技术信息技术普通高中教科书信息技术信息技术数据管理与分析PUTONG GAOZHONG JIAOKESHUXINXIJISHUISBN 978-7-5428-7400-99 787542 874009普通高中教科书信息技术选择性必修3数据管理与分析上海科技教育出版社有限公司出版发行(上海市闵行区号景路 159弄A座8楼邮政编码201101)湖南省新华书店经销湖南长沙鸿发印务实业有限公司印刷开本89012401/16印张72021年1月第1版2021年12月第3次印刷ISBN 978-7
2、-5428-7400-9/G4340定价:8.98元批准文号:湘发改价费2017343号举报电话:12315ISBN 978-7-5428-7400-99 787542 874009此书如有印、装质量问题,请向印厂调换印厂地址:长沙黄花印刷工业园三号电话:0731-82755298此书如有印、装质量问题,请向印厂调换印厂地址:长沙黄花印刷工业园三号电话:0731-82755298普通高中教科书上 海 科 技 教 育 出 版 社信息技术选择性必修 3数据管理与分析编写人员名单主 编:郑 骏 分册主编:金 莹分册副主编:钱卫宁主要编写人员(以姓氏笔画为序):毛嘉莉 张 召 罗轶凤 金澈清 周 烜
3、高 明 陶 烨 黄定江 董启文 蔡福民欢迎广大师生来电来函指出教材的差错和不足,提出宝贵意见。上海科技教育出版社地址:上海市闵行区号景路 159 弄 A 座 8 楼 邮政编码:201101 联系电话:021-64702058 邮件地址:亲爱的同学:如今信息技术快速发展,各种各样的数据不断充斥、影响着我们的生活。对交通数据进行分析,可以为制定交通方案提供科学依据;多维度地了解用户购买需求,则为网上商店进行精准营销提供了可能大数据时代,人们正以从前无法想象的方式从海量数据中挖掘有价值的信息,作为合理决策的有力武器。在数据管理与分析的学习中,我们将带领你通过具体的生活事例,了解各种数据采集途径,掌握
4、设计简单关系数据库的方法,利用适当的数据分析方法从给定的数据中提取出有用信息,根据需求形成最终解决方案,从而感受数据管理与分析的重要性,以及数据安全的重要性。为了让你在学习数据管理与分析的过程中获得更大的成功,请浏览本书的栏目介绍。单元引言、学习目标和单元挑战从生活经验出发引入本单元将要学习的内容,提出本单元学习要达成的学习目标,预告学习完本单元后要接受的单元挑战。项目引言和学习目标描述项目产生的背景和意义,介绍项目学习的主要内容,并提出一些具体问题,引导你带着问题探究。项目学习指引 通过剖析真实的项目实施过程,帮助你了解学科思想方法,理解相关概念,掌握具体技能。解释一些重要概念和术语,或提示
5、相关知识和技术,帮助你抓住重点,扫除认知障碍。核心概念和小贴士写给学生的话提出若干问题引导你对技术背后的原理以及人、信息技术与社会的关系等进行思考和讨论。引导你利用网络、数字化工具和数字资源进行学习。提出活动任务,并引导你运用所学知识,使用信息技术工具进行探究、总结和展示。系统整理和归纳本项目的知识要点,方便你学习。补充更丰富的阅读材料,开阔你的视野。布置面向真实情境的项目任务,希望你综合运用本单元所学的知识与技能去解决问题。用思维导图可视化呈现本单元的知识脉络,提供基于学科核心素养的评价表,为你的学习表现进行自我评价。在学习过程中,希望你勤实践体验、多思考讨论,借助各种数字化工具、资源进行学
6、习与创新,不仅要理解和掌握具体的信息技术知识与技能,还要把握用信息技术解决问题的思想方法,并思考将信息技术应用于社会时所引发的各种挑战,以开放、包容的心态与信息技术、信息社会一起进步。编 者单元挑战拓展阅读知识链接活 动数字化学习单元小结?思考与讨论?第一单元 初识数据管理与分析.1项目一 探究交通数据的管理与分析认识数据资源与价值.21.采集路口交通数据.32.管理交通数据.53.分析交通数据.64.了解交通数据资源及其价值.8知识链接.9项目二 了解网络购物数据的管理与分析经历数据管理与分析的流程.131.分析业务需求.142.管理网上商店订单数据.143.分析订单数据.174.完成科学决
7、策.185.评价、优化整体方案.18知识链接 .19单元挑战 调查校园数据管理现状.21单元小结.22第二单元 数据管理.23项目三 了解健身数据的采集与分类认识数据的结构化.241.采集会员健身数据.252.分类存储会员健身数据.283.认识噪声数据.29知识链接.30项目四 建立简易网上书店数据库了解关系数据库的建立.331.分析数据库设计需求.342.建立实体集和联系.353.建立数据模型.374.创建数据库.39知识链接.40项目五 管理网上书店数据库使用结构化查询语言.431.添加数据.442.查询数据.453.更新数据.46目 录4.删除数据.47知识链接.47单元挑战 建立年级作
8、业评价数据库.50单元小结 .51第三单元 数据分析.53项目六 分析城市交通拥堵状况了解常用的数据分析方法.541.了解城市道路交通拥堵状况.552.分析造成城市道路交通拥堵的相关因素.59知识链接.62项目七 揭示网上书店图书销售情况分析、呈现并解释数据.651.分析并呈现网上书店图书销售情况.662.发现用户数据的相关性.72知识链接.75项目八 探索网上书店图书推荐认识数据挖掘的重要意义.781.了解数据管理与分析技术的新发展.792.挖掘用户阅读兴趣.803.用协同过滤推荐方法推荐图书.82知识链接.86单元挑战 分析在线社交平台用户情况.90单元小结.91第四单元 数据备份与数据安
9、全.93项目九 探秘网上书店数据库系统容灾方案应对数据丢失风险.941.了解数据丢失风险.952.备份网上书店数据.963.优化数据丢失防范方案.99知识链接.100单元挑战 探索 MySQL 数据库的实时备份.103单元小结.104附录 部分名词术语中英文对照.106 认识到数据是一种重要的资源。感受数据管理与分析技术的重要性。初步了解分析业务需求、建立数据管理与分析问题整体解决方案的基本过程。尝试对既定方案进行分析、评价,发现问题并优化方案。学习目标调查校园数据管理现状单元挑战第一单元 初识数据管理与分析信息技术与经济社会的交汇融合引发了数据量和数据处理速度的迅猛增长。数量巨大、来源分散、
10、格式多样的数据就像一个个宝藏,被不同的组织或者个人获取、管理、分析和使用着,最终实现其价值。利用技术工具有效管理和分析数据,提取和发现有价值的信息,已经成为人们解决问题的一种重要方式。商家多渠道采集消费者的购物数据,分析其消费习惯和规律,为营销决策提供支持;企业利用产品设计、制造、营销、售后等各环节的数据,为新产品研发和企业创新发展提供支持;医院充分挖掘临床医疗数据中的价值,用于远程诊疗、医疗研发等;社会保障部门建设公共服务数据平台,为公众提供个性化和精准化的服务数据管理与分析在生产与生活中占据着越来越重要的地位,可以帮助人们更好地应对未来的挑战。在本单元中,我们将结合生活实际,认识数据管理与
11、分析的价值和意义,并初步了解数据管理与分析的一般流程。项目一项目学习目标在本项目中,我们将以解决某十字路口的拥堵问题为例,了解数据的价值,认识到数据是一种重要资源,感受数据管理与分析技术在其中扮演的重要角色。完成本项目学习,须回答以下问题:1.数据管理与分析及数据价值之间有怎样的关系?2.数据为什么是一种重要的资源?3.数据的价值体现在哪些方面?为了解决交通管理问题,不少城市的交通管理部门都在主干道、路口安装了视频监控、地感线圈等设备,实时采集交通数据,如图 1-1 所示。此外,随着移动网络、全球定位系统等技术的发展,还产生了大量通过手机、车载设备甚至遥感卫星等采集的交通数据。这些海量的、形式
12、多样且来源丰富的交通数据,可以帮助交通管理部门了解实时路况,及时处理交通事故;可以为公交公司、出行者以及相关企业提供信息服务;还可为政府各部门规划道路建设、开发公交线路等提供决策支持。交通数据作为一种重要资源正被不同组织共享利用,并发挥着价值。探究交通数据的管理与分析认识数据资源与价值图 1-1 采集交通数据的视频监控图 1-2 利用地感线圈采集数据地感线圈电磁区路口控制主机测量仪表项目学习指引1.采集路口交通数据生活中经常会出现如下的问题:某十字路口在特定时段异常拥堵,虽然有交警帮助疏导车辆,但是效果不佳。要解决以上问题,首先要知道路口拥堵的具体状况,以便分析出原因,这就需要获取该路口的交通
13、数据。路口的交通数据很多,其中,车流量数据能够反映在一天中某时段通过的车辆数量、车辆流向及车辆分类情况,是反映路口车辆行驶情况的重要数据。因此,从采集路口的车流量数据入手,可能会发现有价值的信息。交通管理部门一般会在路口布设自动化的交通数据采集设备,如地感线圈、视频监控等,进行全天候的实时数据采集,如图 1-2、图 1-3 所示。小贴士除了利用设备自动采集车流量数据以外,还可以利用人工的方式采集。人工采集是由人通过手工揿按计数器来统计某个时间段内经过的车辆数,从而得出车流量数据。虽然利用设备自动采集交通数据方便省力,但是对于特定路段,在缺少采集设备的情况下,人工采集仍然不失为一种有效的数据采集
14、方式。图 1-3 利用视频监控采集数据第一单元 初识数据管理与分析3全景摄像机停车线虚拟线圈尾牌摄像机数据管理与分析4例如,地感线圈依靠埋在路面下的一个或一组感应线圈产生的电磁感应变化,来检测通过车辆的状况,包括车辆数量、车辆速度等。又如,视频监控采用虚拟线圈的方式触发摄像机,对经过道路卡口的每辆车进行抓拍,并对所拍摄的图像进行分析,从而自动获取车辆的通过时间、车牌号码、车型、号牌颜色、车身颜色等数据。然而,实际情况非常复杂,会影响交通数据的采集,可能产生错误的、异常的或不完整的噪声数据。例如,大雾天气会导致视频监控设备无法获取清晰的图像数据;在夜间或光照较差的情况下,可能获取错误的车牌数据;
15、地感线圈故障也会导致相关车辆数据丢失;等等。因此,一般在做数据分析之前,需要对数据进行预处理,从而保证数据分析结果的可靠性。这些设备采集到的数据会传输到专门的数据库系统中进行存储,供交通管理部门分析和使用。为了使数据蕴含的价值被深入挖掘、充分利用,有些城市的交通数据经过数据脱敏后会开放给科研机构或企业,甚至免费向社会公众开放。1.除了以上方式,你还知道哪些交通数据采集的设备和途径?2 某商店店主为了防盗,在店铺里安装了视频监控,并定期将偷窃视频公布在网上。某饭店为了提高知名度,在进餐区安装了视频监控并在直播平台进行直播。你是否赞同这两种行为?为什么??思考与讨论?活 动1.1 走访学校或者家附
16、近的路口,观察有无交通数据采集设备,再通过上网学习,了解这些设备可以采集哪些数据,交通管理部门利用这些数据可以解决哪些问题。小贴士数据脱敏的目的是在数据交换、共享、使用等过程中实现对敏感数据的定向、准确和彻底的变换,使数据安全、可信、受控使用。要达到上述目的,需要依据相应的脱敏原则,针对敏感级别制定脱敏策略。第一单元 初识数据管理与分析5活 动1.2 公交一卡通能够准确地反映乘坐公交车出行者的位置分布情况,其采集的公交车客流量数据是公交客流预测、公交线路优化、公交合理调度等应用的重要数据基础。尝试选择恰当的工具将公交一卡通数据表(表 1-2)存储到计算机中,注意按需要设置数据类型、精度等。2.
17、管理交通数据无论是利用设备自动采集到的交通数据,还是用人工的方式采集到的交通数据,都需要进行存储与管理,以方便后续的数据分析。人工采集到的交通数据可以通过录入的方式存储到相应的数据库中,而利用设备采集到的交通数据会被自动存储到数据库中。数据存储后,还需要对数据进行查询、添加、删除、更改等操作。为使采集到的数据保持连贯性、持续性和有效性,以便在数据库系统之间实现共享,还需要对数据进行标准化处理。比如,对数据的名称、代码、分类编码、数据类型、精度、单位、格式等,要规定其标准形式。例如,路口的视频监控系统所采集的数据,自动存储到交通管理部门的数据库后,经过处理,可得到某年 5 月 8 点到 9 点时
18、间段内某路口平均车流量数据,如表 1-1 所示。表中用统一代码 NS、SN、WE、EW 分别代表由北向南、由南向北、由西向东、由东向西四个车辆行驶方向。月份起始时间终止时间方向直行车辆数左转车辆数右转车辆数5 月8:009:00NS9256073275 月8:009:00SN12481274665 月8:009:00WE6602231515 月8:009:00EW548316796参见 P10 知识链接“数据管理与分析技术”表 1-1 某路口平均车流量数据表在管理和分析交通数据时,需要规避或转换哪些数据,避免车主隐私信息的泄露??思考与讨论?数据管理与分析6卡号交易日期交易时间公交/地铁站点行
19、业名称交易金额交易性质60214112802015-04-0107:51:08703 路闵行医院 公交2.00非优惠60214112802015-04-0109:07:57 11 号线昌吉东路地铁6.00优惠2201252167 2015-04-0119:20:337 号线场中路地铁4.00非优惠2201252167 2015-04-0108:55:441 号线陕西南路地铁4.00非优惠表 1-2 公交一卡通数据表3.分析交通数据造成路口拥堵的原因有多种,可以选用适当的数据分析工具对路口不同方向的车流量作分析,如图 1-4 所示。常用的数据分析工具有电子表格软件、专业的数据分析软件以及可完成复
20、杂数据分析任务的 Python 等编程语言。这些分析工具各有优缺点,应根据实际需求选用。例如,利用电子表格软件对 5 月 8 点到 9 点时间段内某路口各方向的平均车流量数据进行分析,可以得到各方向车辆驶出数据表(表 1-3)和驶入数据表(表 1-4)。方向直行车辆数左转车辆数右转车辆数N925607327S1248127466W660223151E548316796方向直行车辆数左转车辆数右转车辆数N1248223796S925316151W548127327E660607466表 1-3 某路口各方向车辆驶出数据表表 1-4 某路口各方向车辆驶入数据表对比各方向车辆的驶入驶出数据,可以发现
21、该路口北方进出的车辆数均超过其余方向进出的车辆数(表 1-5)。图 1-4 十字路口第一单元 初识数据管理与分析7为什么一个月的路口车流量数据尚不能为决策提供支持??思考与讨论?方向进出N22671859S13921841W10021034E17331660为了对各个方向的车流量数据有比较直观的感受,可以通过可视化图表展示数据。例如,利用电子表格软件将某路口各方向车辆进出数据表进行可视化,得到如图 1-5 所示的直方图。从图中可以看到该月南北方向上行驶车辆的数量偏多,这可能是造成路口拥堵的原因之一。表 1-5 某路口各方向车辆进出数据表图 1-5 某路口各方向车辆进出情况图分析该路口拥堵的原因
22、,仅仅用一个月的数据是远远不够的,还需要对该年其他月份的路口数据进行分析,或对历年来每个月的路口数据进行分析,同时综合考虑该路口及周边路口的交通数据。这样得到的数据分析结果可以为交通管理部门缓解早高峰路口交通压力的决策提供支持:例如,在早高峰期间延长该路口车流量较多那一方向的绿灯时长。数据管理与分析8活 动1.3 以小组为单位,各组分别尝试利用一种数据分析工具,对本项目中的路口平均车流量数据表进行分析,交流分析结果并对工具进行比较。小贴士智能交通系统是将先进的信息技术、数据通信传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统,而建立的一种在大范围内全方位发挥作
23、用的,实时、准确、高效的综合交通运输管理系统。4.了解交通数据资源及其价值如今,人们管理和分析的交通数据来源广泛、形式多样,并不仅仅只有车流量数据。在智能交通系统中,通过地感线圈、视频监控、手机、公交卡等传感设备和移动终端采集的人、车、路等交通要素的数据是一种重要的资源,对交通行业及其他各行业组织的运营和管理都十分重要。以城市公交数据为例,对于一个大中型城市来说,每天从公交车辆、公交站点、公交司机或乘客等数据源处采集的公交数据类型多、数据量巨大,如图 1-6 所示。经过一段时间以后,数据的规模更是超出了传统意义上的尺度,传统的软件和工具难以胜任数据的管理和分析工作,需要采用新的、合适的数据管理
24、工具和分析方法,才能有效地挖掘数据资源中潜在的巨大价值。图 1-6 城市公交数据资源参见 P9 知识链接“数据资源与数据价值”第一单元 初识数据管理与分析9管理和分析公交数据,对公交公司来说,可以很好地帮助其进行车辆营运时间调整、车辆调度等,从而提高公交车辆的利用率;对交通管理部门来说,可以为道路疏导、道路规划等提供决策依据;对地图导航企业来说,可以在导航平台上为人们的公共出行提供服务;对计划选址开业的商家来说,可以获得不同地区人流量的信息,帮助商家选择合适的经营位置。数据作为资源被不同行业或企业有效管理和分析后,会创造出各种价值。小贴士根据公交卡的刷卡记录和居民使用公交卡的比例,可以很容易地
25、获取不同站点公交车辆的人流量分布情况。此外,根据移动手机信令数据(手机用户与发射基站之间的通信数据)也可以获取区域内的各种人流量数据。活 动1.4 以小组为单位,选择某一类数据(如教育数据、医疗数据、环境数据、人口数据),查阅与数据资源、数据价值相关的案例,并在班级里开展以“数据资源与数据价值”为主题的交流会。数据资源与数据价值随着时代的发展,数据已俨然成为人类社会赖以生存和发展的一项重要资源,它对国家和民族的发展、对人们的工作和生活至关重要,广泛存在于经济、社会的各个领域和部门。公司管理、商业决策、科学研究、政府政策制定,都离不开对数据资源的利用。例如,与医疗卫生和生命健康活动相关的健康医疗
26、数据就是宝贵的数据资源。对健康医疗数据的分析与挖掘在医学临床、分子生物学、预防医学、医院管理等领域都发挥着重要作用。对各卫生医疗机构采集的患者就诊数据进行深入挖掘后,医生能优化治疗过程,精准用药,减轻患者在治疗过程中的痛苦;科研人员能研发出更有针对性的药物;医院能优化内部管理,改善患者就医体验;政府相关部门能更好地监管医疗体系。在加强安全保障和隐私保护的前提下,越来越多的政府部门和公司将数据资源开放共享,这使得更多的组织可以利用这些数据资源,充分挖掘其价值。同时,各行各业也在积极推动行业内及不同行业间的数据资源整合,加强数据资源的发掘运用。数据作为信息社会的重要资源,它的价值来源于数据本身、技
27、术和思维三个层面。数据本身是数据价值的起点,只有拥有数据或能够接触到数据才能开启数据的价值。数据的拥有者需要借助于各种技术,特别是数据管理与分析技术,获取数据中隐含的信息,在具知识链接数据管理与分析1010体的业务中体现数据的价值。数据思维就是提出数据的创新性用途,挖掘数据的新价值。有些看似毫不相关却非常重要的数据需要依靠人类的智慧不断分析,通过数据思维创新性地实现数据的价值。数据管理与分析技术数据资源的开发利用离不开数据管理与分析技术。数据管理技术可以存储、管理数据,而数据分析技术可以探寻数据间的关系,获取有价值的信息。通过数据管理与分析技术,能从数据中挖掘信息和知识。目前,数据管理与分析技
28、术已经渗透到各个领域之中。因此,建立在大量真实数据的管理与分析基础上的行为和决策,不仅维护了数据的安全和秩序,而且大大提高了生产、生活的效率和质量。1.数据管理技术 数据管理技术发展至今,经历了以下几个阶段:(1)人工管理阶段时间:20 世纪 50 年代中期以前。功能:计算机主要用于科学计算。当时没有磁盘等直接存取数据的设备,只有纸带、卡片、磁带等外部存储设备;软件只有汇编语言,没有操作系统和管理数据的专门软件。数据处理的方式基本是批处理。特点:数据不保存。系统没有专用的软件对数据进行管理。每个应用程序都要包括数据的存储结构和存取方法等。程序员在编写应用程序的同时,还要安排数据的物理存储,负担
29、很重。数据不共享。数据是面向程序的,一组数据只能对应一个程序。数据不具有独立性。程序依赖于数据,如果数据的类型、格式、输入/输出方式等逻辑结构或物理结构发生变化,则必须对应用程序作相应的修改。(2)文件系统管理阶段时间:20 世纪 50 年代后期至 60 年代中期。功能:计算机不仅用于科学计算,还在信息管理方面发挥着作用。随着数据量的增加,数据的存储、检索和维护成为迫切需要解决的问题,数据管理技术迅速发展起来。磁盘、磁鼓等直接存取设备开始普及,这一时期的数据管理技术是把计算机中的数据组织成相互独立的、被命名的数据文件,并可按文件的名字来进行访问,对文件中的记录进行存取。特点:数据可以长期保存。
30、由文件系统管理数据,可以对数据进行反复处理,并支持文件的查询、修改、插入和删除等操作。文件的形式多样化,数据具有一定的独立性。文件系统实现了记录内的结构化,但从文件的整体来看却是无结构的。其数据面向特定的应用程序,因此数据的共享性、独立性差,冗余度大,管理和维护的成本很高。(3)数据库管理阶段时间:20 世纪 60 年代后期以来。功能:数据库系统克服了文件系统的缺陷,提供了对数据更高级、更有效的管理。这个阶段的程序和数据的联系通过数据库管理系统来实现。特点:数据结构化。在描述数据时不仅要描述数据本身,还要描述数据之间的联第一单元 初识数据管理与分析1111系。数据结构化是数据库的主要特征之一,
31、也是数据库系统与文件系统的本质区别。数据共享性高、冗余少且易扩充。数据不再针对某一个应用,而是面向整个系统,数据可被多个用户和多个应用共享使用,而且容易增加新的应用。数据独立性高。数据由数据库管理系统统一管理和控制。数据库为多个用户和应用程序所共享,对数据的存取往往是并发的,即多个用户可以同时存取数据库中的数据,甚至可以同时存取同一个数据。(4)大数据背景下的数据管理技术时间:21 世纪初期以来。功能:在大数据时代下,可以用于分析的数据变得非常多,有时甚至可以处理和某个现象相关的所有数据,不再依赖于随机采样,因此对数据的精确度要求也有所减弱。同时,通过大数据的分析与挖掘,可以找出事物之间的相关
32、关系,从而体现出数据的巨大价值。特点:大数据的 4V 特征是 Volume(数据量)、Velocity(处理速度)、Variety(多样性)、Veracity(真实性)。常用方式:并行计算大数据处理的传统方法是使用并行数据库系统。并行数据库系统是在大规模并行处理系统和集群并行计算环境的基础上建立的高性能数据库系统。NoSQL 数据库NoSQL 数据库是指数据模型定义不明确的非关系数据库。NoSQL 数据库具有灵活的数据模型、高可扩展性和较好的发展前景。它是突破了关系数据库在处理大数据问题上局限性的一种新型数据库。云数据库技术云数据库技术是云计算的一个重要分支,是对云计算的具体运用。云数据库是部
33、署在虚拟化云计算环境中的数据库。它极大地增强了数据库的存储能力,消除了人员、硬件和软件的重复配置,让软硬件升级变得更加容易,同时也虚拟化了许多后端的功能。2.数据分析技术数据分析是数学与计算机科学相结合的产物。数据分析是指用适当的统计分析方法对采集来的大量数据进行分析,提取有用信息和形成结论,并对数据加以详细研究和概括总结的过程。数据分析的数学基础在 20 世纪早期就已确立,但直到计算机的出现才使得数据分析的实际操作成为可能。在现实生活中,数据分析可帮助人们作出判断,以便采取适当行动。在统计学领域,有些人将数据分析划分为描述性数据分析、探索性数据分析以及验证性数据分析。(1)描述性数据分析:对
34、调查对象总体所有变量的有关数据作统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形。(2)探索性数据分析:通过绘制统计图形、编制统计表格、计算统计量等方法来探索数据的主要分布特征,揭示其中可能存在的规律,为选择合适的方法分析数据奠定基础。数据管理与分析1212(3)验证性数据分析:利用相关数据对已有假设进行证实或证伪。随着大数据时代的到来,数据在加速地增长,用传统的方法已很难有效地分析大数据,因此数据分析的工具、技术和分析方法也在不断发展,以满足海量数据存储、管理和实现其价值的诉求。大数据是“全数据”分析,数据来源广、类型多、数据量大,而
35、传统的数据分析是一种抽样数据分析,一般针对少量的数据。大数据分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行分析。传统的数据分析更侧重统计上的分析,而大数据的数据分析核心方法是数据挖掘。数据挖掘一般没有预先设定好的主题,主要是在数据上运行各种数据挖掘算法,从而发现规律或异常,满足一些高级别数据分析的需求。项目二项目学习目标完成本项目学习,须回答以下问题:1.分析业务需求、建立数据管理与分析问题整体解决方案的基本过程是什么?2.如何对既定方案进行分析、评价,发现问题并优化方案?现今,网络购物已成为消费者购物的主要方式之一,从进入网上商店查询到选定并购买商品的一系列过程产生了
36、大量的数据,对这些数据的分析可以帮助商家了解消费者的购物习惯,从而将更多适合消费者喜好的商品推荐给他们(图 1-7)。此外,对这些网络购物数据的分析还可以指导商家的营销和新商品上架等工作。其中,对网络购物数据中订单数据的分析是一种常见的分析。通过对消费者订单数据的分析,可以发现消费者购买商品中的隐含规则,据此设计促销方案。在本项目中,我们将通过寻找订单数据中的隐含规则,了解业务需求分析、建立数据管理与分析问题整体解决方案的基本过程;了解如何对既定的方案进行分析、评价,发现问题并优化方案。了解网络购物数据的管理与分析经历数据管理与分析的流程图 1-7 网络购物数据管理与分析1414项目学习指引1
37、.分析业务需求网上购物发展至今,如何提升销售额一直是网上商店经营者的主要业务需求。一般情况下可以通过对消费者订单数据进行分析,找出消费者购买的商品之间的关系,了解消费者的购买行为,有针对性地制定销售方案。如根据消费者的购买行为向其推荐符合其购买偏好的商品,分析消费者购买的商品之间的关系来制定捆绑销售策略,以及针对消费者的消费心理和购买量开展相应的促销活动等,以此提升网上商店的销售额。本项目主要对消费者购买的商品之间的关系进行分析,从而帮助商家制定有效的捆绑销售和推荐策略,达到提升销售额的目的。核心概念业务需求是为了实现商业目的而产生的需求,它通常描述组织为什么要去执行相应的任务。活 动2.1
38、假设你与小伙伴合作运营一家网上文具店,试分析影响文具店销售额的因素有哪些,并提出文具店的业务需求,尝试对业务需求进行分析,查阅互联网上的资料,撰写业务需求分析文档。2.管理网上商店订单数据(1)数据的采集与存储网上商店的商品数据、消费者数据等都保存在相应的数据库中。当消费者完成购买行为之后,网上商店自动生成该消费者的订单数据,以二维表的形式保存在数据库中。例如,某网上商店的订单数据存储在订单表、订单明细表等多张表中,订单表中含有订单编号、会员编号、会员名、付款金额、订购日期、是否付款、收货地址等数据,订单明细表中含有订单编号、商品编号、商品名称、订购数量等数据。参见 P19 知识链接“数据管理
39、与分析问题整体解决方案”第一单元 初识数据管理与分析1515图 1-8 数据导出示意图为了对数据库中的订单数据进行分析,先要从数据库的大量数据中选择并导出所需数据(图 1-8)。例如,根据业务需求分析可知,本项目计划分析的是订单中商品之间的相关关系,因此需要的数据是每张订单购买了哪些商品,可以从数据库中转换导出订单表,如表 1-6 所示。订单编号会员编号商品名称20911000364424100A1连衣裙,外套,饼干23834390588606299A2手机,外套,T 恤20462982543279927A3连衣裙,手机,外套,T 恤20471829726608330A4手机,T 恤23443
40、211525636382A5连衣裙,外套19875820480768012A6*,&表 1-6 转换导出的订单表(2)数据预处理仔 细 检 查 导 出 的 订 单 表,可 以 发 现,订 单 编 号 为“19875820480768012”的订单中存在异常数据,其“商品名称”出现了异常。这种异常数据被称为噪声数据,可能会对后续的数据分析产生影响,导致分析结果不准确,因此需要小贴士数据预处理是在数据分析之前对数据进行的一些处理。数据预处理方法有很多种,主要包括数据清理、数据集成、数据变换、数据归约等。数据清理的目的是清除有错误或有问题的数据。导出的订单表中能否出现会员名、收货地址等数据?为什么?
41、?思考与讨论?数据管理与分析1616进行数据预处理。这里由于数据较少,可以通过肉眼观察找出噪声数据,而实际处理数据时,往往通过程序自动实现噪声数据的查找。程序查找不仅速度快,方便应对大量数据的预处理,而且可以根据设置的范围查找,不容易错漏。在无法根据现有的数据推测出异常值内容的情况下,可以将包含异常值的这条记录删除。对异常值的处理在可推测的情况下,也可以通过其周围的数据进行推算,如周围都是数值型数据,则可通过求平均值等方法推测替换。发现并清除噪声数据后,还可对订单表作如下预处理:首先,为了方便分析,将连衣裙、手机、外套、饼干、T 恤等五种商品分别用编号“1”“2”“3”“4”“5”表示,如表
42、1-7所示。然后,对表中的数据进行统计转换,转换结果如表1-8 所示(为简化本例,以下仅以导出的订单表的前四条记录为例)。商品名称编号连衣裙1手机2外套3饼干4T 恤5表 1-7 商品名称编号对应表会员编号已购商品编号A11,3,4A22,3,5A31,2,3,5A42,5表 1-8 会员编号已购商品编号对应表活 动2.2 打开配套资源中网上文具店的订单数据表,观察订单数据表中是否有噪声数据,并进行数据预处理。第一单元 初识数据管理与分析1717小贴士Apriori 算法是一种最有影响的探求数据之间关联规则的算法。项集即若干个项的集合。这里消费者购买的一件或多件商品即可作为一个项集。支持度计数
43、是指候选项集在记录中出现的频数。3.分析订单数据分析订单数据,找出商品之间的关系,可以使用的数据分析方法有很多。以下将利用 Apriori 算法对订单数据进行分析,寻找商品之间的关联规则。为了寻找商品之间可能存在的购买关系,可以从会员编号已购商品编号关系对应表的数据里分析出所有可能存在的关系,并用项集表示,结果如表 1-9 所示。商品编号关系支持度计数1,211,321,411,512,322,533,413,521,2,311,3,411,3,512,3,521,2,3,51会员编号已购商品编号关系A11,3 1,4 3,4 1,3,4A22,3 2,5 3,5 2,3,5A31,2 1,3
44、 1,5 2,3 2,5 3,51,2,3 1,3,5 2,3,5 1,2,3,5A42,5 利用 Apriori 算法,计算每种关系出现的次数,即支持度计数,结果如表 1-10 所示。小贴士本项目中分析的是非常少量的订单数据。一般情况下,由于订单中的数据量非常大,不可能通过人工利用以上的方式寻找商品之间的关联规则,而是利用 Python 等软件编写程序,自动处理订单数据。找出表 1-10 中支持度计数大于 1 的关系:1,32,32,53,52,3,5。表 1-9 会员编号已购商品编号关系对应表表 1-10 支持度计数表数据管理与分析1818小贴士本分析结果并不能代替整体订单数据的分析结果,
45、实际分析时应使用完整数据。活 动2.3 打开配套资源中的 apriori.py 程序,调用已经预处理过的订单数据表,获取网上文具店全部订单中商品之间的关联规则。以关系 1,3 为例,通过计算置信度,可以分别抽象出两条规则,如表 1-11 所示。规则置信度解析1 3100%购买商品 1 的用户,有 100%的概率购买商品 33 167%购买商品 3 的用户,有 67%的概率购买商品 14.完成科学决策从以上分析结果可以发现,对于 1,3,消费者购买商品 1 之后再购买商品 3 的概率为 100%,因此在设计营销方案时,可以将商品 1 和商品 3 进行捆绑销售。消费者购买商品 3 之后再去购买商品
46、 1 的概率为 67%,那么,在设计营销方案时可以考虑在消费者购买了商品 3 之后,再向其推荐商品 1。5.评价、优化整体方案在实际工作中,利用 Apriori 算法编写的程序分析数据时会遇到以下问题:当分析的数据量很大时,往往关系也会非常多,从而导致复杂度增加,计算机所消耗的资源与时间呈指数递增,计算的结果也会受影响。因此,当要分析的数据量较大时,可以根据实际需求对 Apriori 算法进行优化,提高分析效率。例如,在订单数较多时可采用 Apriori 的优化算法En-Apriori 算法。活 动2.4 根据活动 2.3 的数据分析结果,试着为网上文具店制定营销方案。数字化学习上 网 查 找
47、 资 料,了 解Apriori 算法和 En-Apriori算法。小贴士置信度表示一个事物出现,另一个事物同时出现的概率。A 对 B 的置信度,表示在A 出现的前提下 B 出现的概率,利用公式可以表示为:A,B 同时出现的支持度计数A 出现的支持度计数置信度=表 1-11 抽象出的两条规则第一单元 初识数据管理与分析1919活 动2.5 尝试对网上文具店的营销方案进行分析、评价,并优化方案。数据管理与分析问题整体解决方案在各行各业中,大到跨国公司,小到微店、微商,其日常业务涉及诸多环节。随着业务的发展,会不断产生新的问题和需求。整体解决方案就是为了解决这些新问题或需求而设计的一个全面系统的综合
48、性解决方案,它是在对数据进行深入分析之后,在充分满足业务需求的基础上形成的系统化的解决方案。整体解决方案是一种“量体裁衣”式的综合性方案,在不同的行业中它的形式不完全一样。尽管如此,整体解决方案的设计,一般都要经过如下几个步骤,如图 1-9 所示。要注意的是,在整个过程中的每一个步骤都离不开方案优化。知识链接业务需求分析数据管理数据分析科学决策图 1-9 设计整体解决方案的一般过程1.业务需求分析业务需求分析最重要的是确定方案目标。开展工作之前确定目标,有助于抓住工作重点,确保工作顺利完成。一个全面、系统的整体解决方案往往会涉及诸多领域、流程,也可能需要和多个部门、客户打交道。为了防止决策的偏
49、差,一般需要通盘考虑各方面的因素。因此,在设计整体解决方案之前,需要全面了解现实情况,汇总来自各方面的“诊断”信息,找出当前问题的症状及原因,明确需要解决的具体问题。2.数据管理数据管理是一个对数据进行有效采集、存储、处理和应用的过程。确定了需求、明确了任务后,首先需要着手寻找“原料”数据。数据采集是根据需求采集数据,从而使数据分析有的放矢。数据采集的方法有很多,有问卷调查、资料查阅、传感器采集、智能设备采集、网络爬虫采集、从已有数据库中采集等。采集到的数据通常通过数据库进行存储、处理和应用。随着用户需求的提升,传统的关系数据库已无法支撑大规模、形态结构各异、支持决策分析的数据业务,因此出现了
50、非关系数据库。随着数据采集、存储和分析技术的飞跃式发展,人们可以更进一步地利用海量、类型多样和来源各异的数据,而不再是少量的样本数据,数据管理进入了大数据时代。数据管理与分析2020海量的数据难免会包含噪声数据、空缺数据和不一致性数据,因此需要通过数据预处理技术提升数据质量。数据预处理的方法包括数据清理、数据集成、数据变换和数据归约。数据清理可以去掉数据中的噪声,纠正不一致的数据。数据集成可以将来自多个数据源的数据整合成一致的数据进行存储。数据变换则是将数据变换成适于数据分析挖掘的形式。数据归约用于简化数据集的表示,降低数据规模。3.数据分析对于数据规模较小的简单数据分析任务而言,可以通过 E
51、xcel、Access、MySQL 等软件完成数据分析和可视化任务。然而,对于大规模的数据和更为复杂的数据分析任务而言,需要对数据进行加工转换,然后利用专业化软件对数据进行深入的分析提炼,从而发现数据背后的秘密,为决策等提供重要依据。分析数据时,要能准确全面地反映实际需求,从而保证设计的方案合理和实用。4.科学决策科学决策是指决策者在科学的决策思想指导下,遵照科学的决策规律,借助各种科学的分析手段和方法,在调查研究、充分掌握有关信息的基础上,依据一定的程序选择最优方案。科学决策是对经验决策、盲目决策以及其他一些不规范、容易造成较大失误的决策方式的否定和改进,避免非理性的决策后果。在大数据时代,
52、随着数据意识的不断提升,对数据的管理与分析将大大增强决策的科学性。网上商店的数据分析结果,不仅可以帮助商家制定有效的营销方案,也可以作为精准投放广告策略制定的依据。行业数据分析对于行业的科学决策有重大的意义。以电信与金融服务业为例,电信业经由数据分析能够设计出不同的服务组合以扩大利润;保险业能通过数据分析侦测出可能不寻常的投保组合并作预防;在医疗领域,对病人进行疗程组合时,数据分析的结果能作为这些疗程组合是否会导致并发症的判断依据。当然,任何方案都不一定是最佳方案。方案设计完成后,能否满足用户的需求?是否适应发展的需要?是否安全稳定?是否经济适用?是否为最现实可行的方案?这就需要对方案进行评价
53、,从而发现其中的问题,进行改进和优化。方案优化需要从整体上对业务需求分析、数据管理与分析问题的整体解决方案进行分析、优化。例如,重新分析业务需求,增加数据采集的范围,采用其他算法对数据进行分析,制定新的营销策略等。在经济快速发展的今天,整体解决方案已成为组织提升科学化管理水平、实现现代化服务的必然产物。根据企业的需求,结合客户业务现状和未来发展需要为企业设计整体解决方案,将助力企业优化业务流程、提升运作效率。第一单元 初识数据管理与分析2121一、项目任务以小组为单位,分别走访学校的教务处、体育室、图书馆等部门,调查学校是如何管理学生学籍和成绩、体质健康测试、图书借阅情况等数据的,了解各部门使
54、用数据管理与分析技术的现状。二、项目指引1.在班级里成立小组,各组分别选取学校的一个部门为调查对象。2.设计调查方案。单元挑战 调查校园数据管理现状3.开展调查,完成小组的调查报告。4.汇总各组的调查结果。调查方案(参考样例)调查目的:了解学校体育室数据管理和分析现状。调查对象:学校体育室。调查内容:日常工作涉及哪些数据?这些数据分别是通过怎样的渠道和工具采集到的?有无应用计算机管理数据?使用了哪些软件来管理和分析数据?调查部门工作涉及的数据数据采集渠道和工具管理和分析数据的手段和工具发现的问题及建议三、交流评价与反思在班级里展示各组的调查报告,交流数据管理与分析技术的重要性。反思在完成项目的
55、过程中,小组或个人遇到了哪些困难,又是如何克服困难完成项目任务的。数据管理与分析2222一、主要内容梳理二、单元练习单元小结1.为了充分挖掘数据资源的价值,交通运输、健康医疗、教育等各个行业都在促进行业数据资源的开放共享,同时也在不断完善数据资源开放共享的安全机制,以确保开放数据资源的安全。围绕数据资源开放共享与数据安全问题写出你的观点。2.某校为了有效管理学生的成绩,计划设计一个成绩管理系统。(1)在设计成绩管理系统时,如何开展业务需求分析?(2)为成绩管理系统采集数据的时候,需要采集哪些数据?可以使用哪些数据采集工具?(3)成绩管理系统需要采集学生的家庭地址、家庭成员身份号码等数据吗?个人
56、或企业能否随意采集公民的身份号码等数据?为什么?评价内容达成情况能认识到数据是一种重要的资源(A,R)知道通过数据管理与分析技术,可以使数据实现其应用价值(A,R)能够感受数据管理与分析技术的重要性(A,R)初步了解分析业务需求、建立数据管理与分析问题的整体解决方案的基本过程(T,I)能够尝试对既定方案进行分析、评价,发现问题并优化方案(T,I)说明:A信息意识,T计算思维,I数字化学习与创新,R信息社会责任三、单元评价 了解数据采集的途径与工具,能利用适当的工具对数据进行采集和分类。理解不同结构化程度数据的区别以及在管理与应用上的特点。认识噪声数据的现象和成因。了解关系数据模型的基本概念,掌
57、握设计简单数据库的逻辑结构的方法。能使用数据库管理系统建立关系数据库,了解数据库基本的数据查询方法,能使用结构化查询语言进行简单的数据查询。学习目标建立年级作业评价数据库单元挑战第二单元 数据管理数据是一种重要的资源,但要利用各行各业所产生的庞大数据,首先要将这些原本看起来杂乱无章的数据采集、存储起来,并进行精心的组织和管理。也就是说,需要利用数据管理技术对数据进行有效管理。生活中常见的车站售票、银行存取业务、超市收银,以及网上书店、旅行 App 等应用背后,都有一种先进的数据管理技术数据库技术支撑着。当你通过网页访问一家网上书店时,其实你正在访问存储在某个数据库中的数据,同时你的访问记录也可
58、能被存储到数据库中;当你提交订单后,订单数据也被存储到数据库中我们的现代生活已离不开数据管理技术。在本单元中,我们将结合案例了解数据管理工作,并掌握和体会数据的分类、抽象、提取和查询等思想和方法。项目三项目学习目标在本项目中,我们将结合某健身俱乐部采集会员健身数据的实例,了解如何利用多种途径对数据进行采集和分类;认识噪声数据的现象与成因,理解不同结构化程度数据的区别,以及在管理与应用上的特点。完成本项目学习,须回答以下问题:1.数据采集的途径和工具有哪些?如何利用恰当的工具对数据进行采集和分类?2.不同结构化程度的数据有何区别?在管理与应用上各有哪些特点?3.什么是噪声数据?噪声数据产生的原因
59、有哪些?随着人们的健康意识不断增强,以健身为目的的各类运动渐渐成为时尚。由于个体情况存在差异,每个人适合的运动项目和所能承受的运动负荷是不同的。因此,科学地安排运动的内容显得格外重要和必要。人们常常会选择去健身俱乐部,请健身教练帮助自己规划有针对性的运动项目。针对不同的健身者,健身教练如何推荐合适的运动项目?要解决这一问题,首先要采集健身者的基本健康与运动数据(图 2-1)。准确、全面、可靠地采集到健身者的数据,去伪存真,并分类整理,这是健身者获得合适的运动项目推荐的基础和保障。了解健身数据的采集与分类认识数据的结构化图 2-1 运动数据的采集项目学习指引1.采集会员健身数据贸然训练往往会对会
60、员身体造成伤害,因此健身教练为会员规划训练项目前,要先了解会员身体的基本情况,并进行相应的数据采集工作,即采集会员个人基本数据、健康数据和运动数据,为会员建立个人身体运动档案。在对这些数据进行分析后,才能提供合适的训练建议。(1)人工采集数据个人基本数据主要是会员的身份数据,包括姓名、性别、出生年月和联系方式等。健身教练会通过询问或让会员填写表格、问卷等方式,采集会员的个人基本数据。(2)利用设备采集数据除了采集会员的个人基本数据外,一般还需要了解会员的健康数据和运动数据等。这类数据的采集途径和工具较多,视健身俱乐部及会员的实际情况而定。例如,有些健身俱乐部会利用人体成分分析仪(图 2-2)来
61、采集会员的健康数据。在人体成分分析仪的面板上输入会员的年龄、性别,人体成分分析仪通过采集,得到会员的身高、体重、身体各部位体脂率、肌肉量和目前的基础代谢量等数据。采集到的数据可以传输到与仪器相连的计算机上。需要注意的是,人体成分分析仪仅对人体各部位体脂率、肌肉量等进行评估,不能完全作为会员健康程度的依据。如果要对身体健康状况进行总体评估,还需要会员提供最近一年的医学体检数据。有些健身俱乐部会让会员当场做一些体能测试,并在核心概念数据采集是指按照既定的目的,通过人工或利用设备,获取客观世界中相关的数据,并输入计算机进行存储的过程。参见 P30 知识链接“数据采集”个人身份数据大多是一些敏感数据,
62、一旦泄露会带来很多负面影响。日常生活中应该如何保护自己的个人身份数据??思考与讨论?小贴士人体成分分析仪采集到数据后,还可以通过相关的健康分析软件,形成人体成分健康分析报告,如图 2-3 所示。第二单元 数据管理2525数据管理与分析2626体能测试时利用摄像设备为会员录制视频、拍摄照片,这类数据可直观反映会员的运动状态,也便于对比训练前后的效果。还有些健身俱乐部会通过运动捕捉技术,对会员体能测试时的动作数据进行实时、精确、定量的连续采集(图 2-4)。此外,目前还有很多便携的可穿戴设备用于日常运动数小贴士通过运动捕捉技术,可以在人们训练过程中实时追踪和记录其动作数据。如,在篮球比赛馆内安装多
63、个摄像头,以每秒 25 帧的速度收集篮球以及每位球员的移动数据。动作捕捉技术采集的球员运动数据,可在赛后生成动画效果模拟比赛,并供球队进行技术和战术分析。图 2-2 人体成分分析仪图 2-3 人体成分健康分析报告回忆自己在医院体检的经历,说说哪些体检数据是通过医生人工采集的,哪些是通过医疗仪器自动采集的。?思考与讨论?图 2-4 某种运动捕捉设备的核心技术第二单元 数据管理2727据的采集,例如运动手环(图 2-5)。健身教练也可以参考会员利用这些设备采集的日常运动数据(图 2-6),了解会员运动情况。1.你平时有无采集自己的日常运动数据?生活中采集运动数据的工具和途径有哪些?2.常见的可穿戴
64、设备有哪些?它们分别用来采集哪些数据??思考与讨论?活 动3.1 尝试佩戴运动手环或利用手机上的运动 App 记录自己的日常运动数据,并了解其采集了哪些数据。3.2 查阅资料,了解采集网络数据的途径和方法。图 2-6 运动手环采集的数据图 2-5 运动手环数据管理与分析28282.分类存储会员健身数据健身教练采集到的个人基本数据、健康数据、运动数据都是零散的,而且格式各异,只有对数据进行分类整理、存储之后才方便后续的管理和应用。根据数据结构化程度的不同,可以将数据分为结构化数据、非结构化数据和半结构化数据。不同结构化程度的数据,其存储方式各不相同。通过表格、问卷等方式采集到的个人数据一般可以用
65、二维表结构来表达和存储,如图 2-7 所示,这些数据属于结构化数据。核心概念结构化数据(structured data)是指存储在数据库里,可以用二维表结构来逻辑表达实现的数据。包括预定义的数据类型、数据格式和数据结构,其模式使其易于搜索。非结构化数据(unstruc-tured data)是指不方便用二维表结构来逻辑表达实现的数据,没有固定的结构。包括所有格式的文本、图像、音频和视频数据等。半结构化数据(semi-structured data)是指介于结构化数据和非结构化数据之间的数据。半结构化数据往往具有一定的结构性,一般为有识别模式的文本数据文件,支持语法分析,如 XML文件。每次旅行
66、时拍摄的照片和视频,你是如何存储的?怎样存储能方便查找??思考与讨论?编号姓名性别出生年月联系方式视频和图片等记录会员体能测试的运动数据不方便用二维表结构来表达和存储,一般以文件的形式放入文件夹中进行存储,如图 2-8 所示,这些数据属于非结构化数据。除了以上两类数据,还有一类半结构化数据。这类数据既不方便利用二维表结构来表达和存储,也不能简单地像视频和图片一样以文件形式单独存储。例如,健身教练可以将会员的个人基本数据存储在一张二维表中,但如果还需要记录会员健康状况,包括是否有慢性病以及有什么慢性病,就难以用二维表存储了。半结构化数据可以利用表格(非二维表)结构来表达和存储,也可以用 XML
67、文件来存储。图 2-7 会员表示例图 2-8 非结构化数据的存储参见 P30 知识链接“不同结构化程度的数据”第二单元 数据管理2929参见 P32 知识链接“噪声数据”活 动3.3 无论是何种结构的数据,在存储之后都会面临管理与应用的问题。利用互联网查阅资料,总结不同结构化程度的数据在管理与应用上的特点。3.认识噪声数据在采集数据过程中,由于误操作等原因,可能会产生错误或异常数据,这种有问题的数据就是噪声数据。例如,健身教练在采集会员个人数据时,将某会员原本的年龄“26”误写为“9”,就出现了噪声数据。又如,使用人体成分分析仪时,由于机器发生故障,也可能会产生噪声数据。由于噪声数据的存在,采
68、集到的数据有可能无法准确地反映会员的身体状况,这会导致依据数据分析出的会员身体状况评估不准确,进而导致制定的运动方案出现偏差。正是由于噪声数据会影响数据价值的获取和科学决策,因此,一般需要对采集到的数据进行预处理,采用一定的技术或方法来检查并修正数据,以保证数据的质量。例如,通过检测数据类型或利用数据完整性约束规则查找出噪声数据,然后删除噪声数据或利用数据推算替换等方式清除噪声数据。清除噪声数据后,健身教练可以对数据进行分析,为会员提供恰当的健身建议。采集到准确、可靠、真实的数据是数据管理和分析工作顺利进行的前提和基础,对解决数据业务问题起着关键作用。核心概念噪声数据(noisy data)是
69、指在数据采集过程中产生的错误的、异常的、不完整的或无意义的数据。活 动3.4 在数据的采集、存储过程中都有可能产生噪声数据。上网查阅资料,了解噪声数据产生的各种原因;查找一些因噪声数据影响决策的案例,说明数据准确性、可靠性和真伪性的重要作用。3.5 假设你是一个网上书店开发者,要创建一个网上书店平台在线销售图书,需要采集哪些数据?可以通过什么途径和工具?上网浏览已有的各种网上书店,回答以上问题,并在班级里交流自己的收获和想法。小贴士项目二中采集数据库的订单数据时,也产生了噪声数据,我们通过删除异常订单的方式清除了噪声数据。数据管理与分析3030数据采集根据不同的数据来源,可以选择不同的数据采集
70、途径。需要调查人员参与采集的数据称为人工采集数据。例如,健身教练请会员填写表格,采集会员基本信息;交警向驾驶员询问交通事故发生的情境;心理咨询师与来访者交流,了解对方的心理状况等。人工采集数据通常使用观察法、访谈法、测验法等调查方法。除了人工采集数据之外,还可以利用设备采集数据。例如,利用录音机、摄像设备等数据采集设备采集现场音频、图像、视频等数据;利用各种传感器实时采集温湿度、压力、速度等数据。此外,由于互联网技术的迅速发展,互联网已经成为一种重要的数据来源。互联网上的海量数据可以使用自动化的采集软件获取。例如,网络爬虫(或称网页蜘蛛)就是一种按照一定规则自动抓取网络数据的程序或脚本。如今,
71、随着技术的发展,数据采集的途径和工具越来越多,数据泄露、数据侵权问题也日益严重。一方面,我们在使用某些技术和工具采集数据时,需要遵循相应的道德规范,维护良好的网络环境和秩序。例如,在使用网络爬虫软件前,需要了解哪些网页数据可以抓取,哪些不能,否则有可能侵权;抓取的数据若属于他人的隐私或商业秘密,应及时停止抓取并删除。另一方面,我们在日常生活中要注意保护自己的个人数据不要被他人悄然或恶意地采集。例如,应谨慎使用社交网络平台,你填写的个人信息有可能会透漏你的真实身份;应妥善处理存储有个人账户资料的废旧手机,更换之前务必做好彻底清理工作。不同结构化程度的数据根据结构化程度的不同,数据可以分为结构化数
72、据、非结构化数据和半结构化数据。1.结构化数据能够用二维表结构来逻辑表达实现的数据属于结构化数据,如图 2-9 所示。结构化数据就是行数据,严格地遵循数据格式与长度规范,主要通过关系数据库进行存储和管理。结构化数据具有任何一列数据都不可以再细分,任何一列数据都是相同的数据类型等特征。结构化数据的应用很多,例如航空预订系统、库存控制、销售事务等。编号姓名出生日期性别民族籍贯教育程度1张元1988.10.06男汉族湖南衡阳本科2王红娟1981.01.08女汉族江苏苏州硕士知识链接图 2-9 结构化数据示例第二单元 数据管理31312.非结构化数据相对于结构化数据而言,无法用二维表结构来逻辑表达实现
73、的数据称为非结构化数据,例如全文文本、图像、音频、视频等数据,它们一般以文件形式存储在文件夹中,或通过非关系数据库进行存储和管理。例如,图像数据就属于非结构化数据。图 2-10 是一张应聘者照片在计算机中的部分图像数据,它与某企业应聘人员基本信息表中用二维表表示的结构化数据截然不同,没有固定的结构。非结构化数据的典型案例包括医疗影像系统、教育视频点播、视频监控、国土地理信息系统、文件服务器等。3.半结构化数据半结构化数据是介于结构化数据和非结构化数据之间的数据,例如,个人简历中的工作经历就属于半结构化数据。由于每个人的经历不同,例如教育背景、工作经历、技术技能等,有的简历比较简单,有的简历则较
74、为复杂。通常要完整地保存这些数据并不容易。因此,在存储半结构化数据时,可以将半结构化数据转化为结构化数据,或者利用 XML(eXtensible Markup Language,可扩展标注语言)文件进行存储。将简历中的半结构化数据转化为结构化数据存储时,一般会采用对个人简历中每一类别建立子表的方式,例如建立基本情况子表、求职意向子表、自我评价子表、工作经历子表等,并在简历主表中加入一个备注字段,将不能归结到以上子表的内容保存到备注中。半结构化数据的常见存储方式是 XML 文件。XML 是一种标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。它可以用来标记数据、定义数据类型
75、,是一种允许用户对自己的标记语言进行定义的源语言。它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。利用 XML 文件保存简历时可将简历中不同类别的数据保存在 XML 文件的不同节点中,如图 2-11 所示。半结构化数据的典型应用有邮件系统、教学资源库、数据挖掘系统、档案系统等。将数据根据结构化程度进行划分,可以方便对不同结构化程度的数据进行管理与应用。例如,结构化数据可使用传统的关系数据库进行管理与应用,允许使用结构化查询语言查询;非结构化数据和半结构化数据则不使用关系数据库进行管理,而是利用专门管理非结构化数据和半结构化数据的数据库系统,如 NoSQL 数
76、据库等。图 2-10 某应聘者照片的部分图像数据数据管理与分析3232噪声数据噪声数据是在数据采集过程中产生的错误的、异常的、不完整的或无意义的数据。产生噪声数据的原因很多,一般可以归结为两类:(1)人为原因:人工记录数据或者将数据录入计算机时产生的错误。例如,人工录入公民身份号码时,可能会出现某个数字的误输入,导致身份号码无法与相应的人对应;注册某个网站时,当用户不希望提交真实的个人信息时,可能故意输入错误的数据,如故意将年龄填为 300 岁;问卷调查中,有些被调查者认为身高、体重是隐私,拒绝填写相关数据等;修改存储在多处的同一数据时,可能没有进行同步修改。(2)设备原因:采集设备发生故障时
77、产生的数据。例如,在利用指纹机采集指纹时,由于机器的故障没有采集到完整的指纹;在利用扫描仪扫描文稿时,出现文字乱码;由于存储数据的设备突然断电等情况导致数据缺损等。噪声数据未必增加原本数据的存储空间,但它可能会影响数据分析的结果。尤其是一些对噪声敏感的算法,噪声数据可能会导致分析结果出现比较大的偏差。所以,在数据分析之前需要对数据进行必要的预处理,将噪声数据去除或修复,提高数据质量。图 2-11 XML 文件保存的简历项目四项目学习目标本项目通过创建网上书店数据库,带领大家了解关系数据库设计与创建的一般过程,了解关系数据模型的基本概念,掌握设计简单关系数据库逻辑结构的方法,并使用数据库管理系统
78、建立关系数据库。完成本项目学习,须回答以下问题:1.什么是关系数据模型?2.如何描述实体集及其联系?3.设计、创建数据库的一般过程是怎样的?4.如何使用数据库管理系统建立数据库?如今,无论是手机上的旅游 App、天气查询 App,还是互联网上的网上书店、网上商城等,各个信息系统都离不开数据的存储和访问。例如,在旅游 App 中订飞机票,离不开各航空公司的航班数据、会员数据以及机票订单数据等各种数据;又如,从网上书店信息系统(以下简称网上书店)中找书、购书,网上书店必须存储图书数据、会员数据以及图书订单数据等(图 2-12)。那么,如何有效地使用和保存旅游 App、网上书店等应用中的数据呢?以上
79、这些应用中产生的各种数据通常存储在数据库中。关系数据库是一种常用的数据库,它把数据组织为二维表的形式。利用成熟的数据库技术,人们可以创建关系数据库。例如,创建网上书店数据库,将图书、会员、订单等数据以二维表的形式组织并存储起来,以满足网上购书的需要。建立简易网上书店数据库了解关系数据库的建立图 2-12 网上书店数据管理与分析3434项目学习指引1.分析数据库设计需求设计一个信息系统一般要先做需求分析,也称软件需求分析、系统需求分析或需求分析工程等,它是开发人员经过深入细致的调研和分析,准确理解用户和项目的功能、性能、可靠性等具体要求,将用户的需求表述转化为完整的需求定义,从而确定系统必须做什
80、么的过程。要创建一个网上书店,首先需要对网上销售图书的整个业务活动作全面、详细的需求调查,并分析哪些业务计算机可以完成,哪些业务计算机不能完成。然后,确定网上书店这个信息系统能提供哪些功能和服务,并分析信息系统的数据要求,即系统需要输入什么数据,要得到什么结果,最后应输出什么数据,也就是确定网上书店数据库要存储什么数据,使得信息系统可以方便地处理这些数据,同时也要体现这些被存储的数据之间有什么关系。还要确定数据库的类型,一般都选择使用关系数据库。就数据库设计需求分析而言,网上书店的开发人员通过与某网上书店需求方(不同部门的相关人员)进行充分沟通和交流,了解该网上书店的业务活动如下:网上书店是以
81、网站作为图书交易平台。书店职员将图书的基本信息发布到网页中;会员通过网页浏览、查询图书,提交订单,实现图书的在线订购;订单提交后,书店职员会对订单进行处理,通知配送公司送书等。深入分析网上购书这个核心业务,其主要业务流程如图 2-13 所示:核心概念数据库(database)是按照数据结构来组织、存储和管理数据的仓库,是长期储存在计算机内、有组织的、可共享的数据集合。关系数据库(relational database)是建立在关系数据模型上的数据库,一个关系模型的逻辑结构是一张二维表,由行和列组成。这个二维表就叫关系。关系数据库用二维表来组织和存储数据。图 2-13 网上购书的主要业务流程参见
82、 P41 知识链接“数据库设计的一般步骤”第二单元 数据管理3535可以发现,该网上书店需要支持的用户有多种,主要为会员、书店职员。会员可以浏览和检索图书信息、从网上订书、在线支付、完成订单查询与修改等;书店职员可以维护和发布图书信息、处理订单等。各类用户要在网上书店中完成以上业务活动,离不开数据库的支持。以会员用户为例,其主要业务活动所涉及的数据大致包括:会员的注册数据。会员注册时填写登录名、真实姓名、登录密码、性别、出生日期、收货地址、电话等数据。数据经网上书店信息系统检查无误后,产生会员编号数据,并存入数据库。图书数据。会员浏览或检索图书时,系统会提供图书编号、图书名称、类别、出版社、出
83、版日期、作者、ISBN、定价、封面图等数据(数据由书店职员发布)。会员的订单数据。会员将计划购买的图书放入购物车并填写购买数量、选择支付方式后,以上数据会存入数据库,生成订单。每张订单要记录订单编号、会员编号、图书编号、购买数量等数据。活 动4.1 选取一个知名的网上书店,体验购书流程,分析该网上书店为用户提供哪些功能和服务,列出会员在购书过程中涉及哪些数据。核心概念实体(entity)是现实世界的数据对象在信息世界的反映。在信息世界中,客观存在并且可以相互区别的人、事、物可以称为实体。实体集(entity set)是指具有相同类型及相同性质的实体集合。例如,学校里的每个学生都是一个实体,所有
84、学生的集合可定义为学生实体集。属性(attribute)是指实体集中每个实体都具有的特性描述。2.建立实体集和联系在设计数据库的过程中,通常需要从创建数据库的业务需求中抽象出客观存在的实体集及描述每个实体集的特征,即属性;然后找出实体集之间的联系以及描述这种联系的属性。设计网上书店的实体集和联系,首先要确定数据库中所有的实体集和属性,然后确定主关键字、定义实体集之间的联系。数据管理与分析3636小贴士主关键字(primary key)又称为主键,是实体的一个或多个属性,它用于唯一地标识某一个实体的值。(1)确定网上书店业务需求中的实体集及其属性通过对网上书店业务需求的分析,可以知道其中涉及的实
85、体集有职员、会员、图书、订单等。例如,对于职员,它的属性有编号、登录名、密码、真实姓名、电话、电子邮箱等。(2)确定主关键字对于网上书店来说,会员注册时常常会出现相同的姓名,职员中也可能会出现相同的姓名。为了能唯一标识每个实体,可以设置部分属性为主关键字。例如,对于职员来说,每一个职员会有一个编号,不会与其他职员重复,因此,编号可以作为职员这个实体集的主关键字。(3)定义联系确定实体集后,需要进一步发现实体集之间的联系。例如,会员购书时,一张订单中可以有很多种图书,而一种图书也可以在多张订单中出现。因此,订单实体集和图书实体集之间存在多对多的联系;又如,一个会员可以在网上书店里有多张订单,而一
86、张订单只能属于一个会员。因此,会员实体集和订单实体集之间存在一对多的联系。1.图书名称属性能否作为图书实体集的主关键字?为什么?2.职员实体集有一个属性为登录名,在注册时系统会要求登录名不能重复。那么,登录名能否作为职员实体集的主关键字?为什么??思考与讨论?活 动4.2 确定本网上书店中的实体集,并确定各实体集之间的联系。会员实体集与图书实体集之间存在什么联系??思考与讨论?核心概念实体集之间的相互关联称作联系(relation)。实体集之间的联系有一对一、一对多、多对多三种类型。第二单元 数据管理37373.建立数据模型将现实世界中的事物及其联系转换成实体集和联系后,还需要将其转换成计算机
87、世界中的数据模型。数据模型中应用最广泛的是关系数据模型。设计关系数据模型的过程是将实体集、属性和联系转换成二维表的过程。(1)将实体集及属性转换成二维表将网上书店的所有实体集转换成表,实体集的属性转换成字段。例如,对于图书实体集,它的属性有图书编号、图书名称、类别、出版社等,其转换成的二维表如图 2-14 所示。核心概念数据模型(data model)是数据特征的抽象。数据模型一般包括三个部分:数据结构、数据操作、数据约束。关系数据模型的数据结构是关系(二维表),数据操作包括插入、删除、查询、更新等,数据约束包括实体完整性、参照完整性以及用户自定义完整性约束。小贴士字段(field)是指在关系
88、数据库的表中的每一列,每个字段表示实体的一个属性。每个字段都有一个唯一的字段名。记录(record)是指在关系数据库的表中的每一行,它记录了关于一个实体的属性值。小贴士数据冗余:同一个数据大量重复地出现在数据库的表中。删除异常:删除表中某一条记录,需要保留的数据也会随之消失。修改困难:欲修改表中的一个数据,需要连同修改多处(字段、记录)数据。图书编号图书名称类别出版社出版日期作者ISBN定价简介封面图库存数书评其中,实体集名“图书”转换成表名“图书”,属性名转换成字段名。图书表可以存储书店中所有图书的数据,每一行存储一条图书数据。这一条条数据被称为记录,它是关于书店中每一本图书的描述。(2)优
89、化表有时,设计出的数据模型可能会存在数据冗余、删除异常和修改困难等问题。例如,分析以上图书表,可以发现以下问题:在图书表中,每个会员的书评占用一条记录,同一本书可能有多条评论,因此,除书评外的字段会大量重复出现在图书表中,造成数据冗余。当某种图书类别中只有一本图书时,如果删除该图书的记录,对应的图书类别也随着一同被删除,出现删除异常。针对上述问题,需要对表进行优化,常用的优化方法是对表进行拆分,消除表中存在的不合理的地方。例如,解决图书表中的书评数据冗余问题,可以将原图书表拆分成以下的图书表和图书评价表,如图 2-15 所示。图书表属性名转换成字段名实体集名转换成表名参见 P40 知识链接“数
90、据模型及关系数据模型”图 2-14 二维表示例数据管理与分析3838(3)确定主关键字每一个实体集都有一个主关键字,当实体集转换成表,属性转换成字段时,同样需要为表确定主关键字。例如,图书实体集的主关键字是“图书编号”,那么“图书编号”字段就可以作为图书表的主关键字。又如,图书评价表的主关键字为“图书编号”和“评价编号”的组合。在表示时,在表的主关键字下标注横线,如图 2-15 所示。小贴士如果表 T1 和表 T2 有相同的属性 A,属性 A 在表 T1是主关键字,那么属性 A 被称为表 T2 的外关键字,又称为外键。外键表示了两个表之间的相关联系。以另一个表的外键作主关键字的表被称为主表,具
91、有此外键的表被称为主表的从表。小贴士正确的数据库设计不是一蹴而就的,而是一个循序渐进和反复设计的过程。图书编号图书名称类别出版社出版日期作者ISBN定价简介封面图库存数图书表图书编号评价编号书评为解决图书表的图书类别删除异常问题,应该如何优化图书表??思考与讨论?图书评价表优化前的图书表,“图书编号”字段能作为主关键字吗?为什么??思考与讨论?(4)建立表间联系通过表与表之间的相同属性,建立表间联系。例如,在如图 2-16 所示的图书表和图书类别表这两表中,通过图书表的“类别编号”和图书类别表的“类别编号”这两个属性相同的字段,建立起了一对多的联系(一本图书对应一个类别,一个类别可以有多本不同
92、的图书)。图书表中的“类别编号”是图书表的外关键字,图书类别表是主表,图书表是图书类别表的从表。小贴士这里的主关键字是在关系数据库的表中唯一确定每个记录的一个字段或一组字段。图 2-15 图书表和图书评价表第二单元 数据管理3939图书编号图书名称出版社出版日期作者ISBN定价简介封面图库存数类别编号图书表类别编号类别名称图书类别表活 动4.3 根据已经确定的网上书店的实体集和联系,建立数据模型。4.创建数据库创建数据库需要使用数据库管理系统。数据库管理系统有很多种,这里以 MySQL 数据库管理系统为例,创建网上书店数据库。安装并启动 MySQL 数据库管理系统。创建网上书店数据库。在 My
93、SQL 中输入如下命令,按回车键,创建一个名为“netbook”的空数据库。CREATE DATABASE netbook;创建表结构。表是数据库最重要的组成部分之一,是数据库真正存储数据的地方。一个数据库管理系统中可以存在多个数据库,所以在创建数据库的表时,首先要确定将表建立在哪个数据库中。例如,在 MySQL 中输入如下命令,按回车键,打开“net-book”数据库。USE netbook;核心概念数据库管理系统(Da-tabase Management System,DBMS)是一种开发、使用、维护数据库的管理软件。它为用户提供了各种对数据进行操纵的工具,帮助业务管理者对数据进行有效的组
94、织、存储和管理。数字化学习利用配套资源,学习安装并启动 MySQL 数据库管理系统。参见 P42 知识链接“数据库管理系统”图 2-16 表间联系示意数据管理与分析4040打开数据库后,便可在数据库中创建表。在创建表时要为每个字段确定数据类型。例如,输入如下命令,创建职员表。CREATE TABLE 职员(编号 tinyint NOT NULL,登录名 varchar(20)UNIQUE,密码 varchar(32)NULL,真实姓名 varchar(20)NULL,电话 varchar(11)NULL,电子邮箱 varchar(30)NULL,PRIMARY KEY(编号);小贴士为了规范数
95、据的使用和存储,在数据库中常使用数据类型来约束数据。数据类型规定了对数据的允许取值和取值范围的说明,它是数据的基本属性。因为表的每一个字段都只能存放单一数据类型的数据,因此在创建表的结构时,可以根据需要为字段设置数据类型。数据类型定义合适,可以正确表达数据,定义不合适则会造成数据丢失或存储空间的浪费。1.以上语句中 NOT NULL、UNIQUE 的作用分别是什么?2.MySQL 中提供了哪几种常用的数据类型?和 Python 中的数据类型比,有哪些不同??思考与讨论?活 动4.4 根据建立的数据模型,利用 MySQL 数据库管理系统,创建网上书店数据库。类似的,可以用同样的方式创建数据库中的
96、其余表,完成网上书店数据库的创建。数据模型及关系数据模型现实世界非常复杂,计算机不可能直接处理其中的具体事物,因此必须使用相应的手段将具体事物转换成计算机能够处理的数据。数据模型的主要任务就是将现实世界中的具知识链接第二单元 数据管理4141体事物转换成计算机能识别和处理的数据。数据模型所描述的内容包括数据结构、数据操作和数据约束。创建数据模型的具体方法是:把现实世界中存在的客观对象抽象为某一种不依赖于具体计算机系统的数据结构,然后将其转换成计算机系统所支持的数据模型。数据模型是直接面向计算机系统(即数据库)的数据的逻辑结构。目前成熟地应用在数据库技术中的数据模型有三种:层次数据模型、网状数据
97、模型和关系数据模型。关系数据模型是应用最广泛的一种数据模型,它由许多以某种条件联系在一起的二维表组成。在关系数据模型中用二维表描述实体集、属性以及实体集之间的联系。关系数据模型由关系数据结构、关系操作集合和关系完整性约束三大要素组成。(1)关系数据结构:关系模型把数据库表示为关系的集合(关系模型中数据的逻辑结构是一张二维表)。(2)关系操作集合:关系模型中常用的关系操作包括查询操作和插入、删除、更新操作两大部分,其中查询操作可以分为选择、投影、连接等。(3)关系完整性约束:数据库的数据完整性是指数据库中数据的正确性、相容性和一致性。关系完整性约束包括三方面内容:实体完整性,即主关键字的主属性不
98、能为空,不能重复,如会员编号作为会员表的主关键字,不能为空,不能重复;参照完整性,即外键取值只能取被参照关系(即主表)中已经存在的主关键字值或者空值,如图书表某个图书记录中的类别编号只能是图书类别表中已经存在的类别编号,或者不指定类别编号,即为空值,但是不能是一个不存在的非法的编号;用户自定义完整性,需要根据用户的实际需求定义,如性别只能是“男”或“女”。数据库设计的一般步骤数据库是一个长期存储在计算机内、有组织的、可共享的、可统一管理的数据集合。数据库设计要经历一个从现实世界到信息世界再到数据世界的逐步抽象过程。数据库的设计需要经历以下几个阶段。1.需求分析需求分析是指针对业务所处的现实世界
99、进行调查与分析。需求分析一般是对整个数据库应用系统所要处理的对象进行全面的了解,明确业务管理的目的。需求分析的主要任务是分析并归纳应用系统应该具有的功能要求和对数据的处理、存储、输入与输出的要求。设计者只有熟悉相关的业务,才能设计出符合实际需求的数据库。在设计数据库之前,设计者一方面要深入实地开展业务调查,采集相关业务数据,了解行业业务现状和具体业务流程;另一方面要详细分析采集到的各种数据,明确用户的各种要求,总结归纳出需要数据库管理的数据信息和管理信息。2.建立实体集和联系数据库设计者要对原始数据进行综合,抽象出所要研究的数据,将现实世界中的事物及其联系转换成信息世界中的实体集及实体集间的联
100、系。建立实体集和联系的一般过程是:(1)确定实体集和属性。现实世界中,一组具有某些共同特性和行为的对象就可以抽数据管理与分析4242象为一个实体集。例如在学校的选课系统中,张珊、李偲、王於等学生对象可以抽象为学生实体集。对象的成分和特性可以抽象为该实体集的属性。例如学生的学号、姓名、班级、选修的课程等可以抽象为学生实体集的属性。(2)确定主关键字。在实体集的属性中往往可以找到唯一标识该实体集的属性,那么这个属性被称为主关键字,主关键字可以由一个或几个属性组成。(3)定义联系。实体集之间的联系是现实世界中客观事物之间的固有关系的反映,分为一对一、一对多、多对多三种类型。例如在网上书店中,一个会员
101、可以购买多种图书,一种图书也可以被多个会员购买,因此,图书实体集与会员实体集之间存在多对多的联系。3.建立数据模型将实体集和联系转换成数据世界中的数据及其联系,并用数据模型进行描述。对关系数据模型来说,就是要定义表及表间联系等。(1)定义表。将实体集与属性转换成表与字段,其中实体集名转换成表名,属性名转换成字段名。(2)确定主关键字。在表的多个字段中,能唯一确定每条记录的一个字段或一组字段,即为表的主关键字。(3)建立表间联系。将实体集间的联系转换成表间的关联关系,并确定外关键字。数据库管理系统数据库管理系统是一组实现对存储于计算机存储器中的数据执行统一管理操作,如读出、写入、查询、修改、删除
102、等操作的程序的集合,简称 DBMS,通过它数据库开发和管理人员可以和数据库进行交互。数据库管理系统的目标是让使用者能够更方便、更有效、更可靠地建立数据库和使用数据库中的信息资源。数据库管理系统一般不是设计成直接面向用户的形式,它是为使用该数据库的各种应用程序提供数据管理服务。例如,要实现网上书店的功能,还需要网上书店信息系统来直接面向用户。目前,常见的数据库管理系统有 Access、SQL Server、Oracle、MySQL 等。其中,MySQL 是一种开放源代码的关系数据库管理系统,因其体积小、速度快、总体拥有成本低,受到数据库开发者的热捧,成为当前非常流行的数据库管理系统之一。项目五项
103、目学习目标在本项目中,我们将使用结构化查询语言对网上书店数据库进行添加、查询、更新和删除等操作,了解数据库的基本数据查询方法。完成本项目学习,须回答以下问题:1.什么是结构化查询语言?2.如何使用结构化查询语言进行数据添加、查询、更新和删除等操作?网上书店数据库建立并投入使用后,新的数据会不断地被添加或更新到数据库中。例如,会员注册成功后,需要将新会员的数据添加到会员表中;会员提交订单并完成支付后,需要同步更改图书的库存数据;书店新购进一批书后,需要将新书数据批量导入图书表中。除了数据存储和数据更新外,用户还会做一些数据查询工作(图 2-17)。例如,会员购书时,可能会查找书名含有“大数据”关
104、键词的图书,或将少儿类图书按销量从大到小排序。又如,书店职员可能会查找库存量小于警戒数的图书,并分别统计每种书前几个月的销量,以便考虑哪些图书需要补货,该补多少册。对数据库的管理与维护,既可以利用数据库管理系统的结构化查询语言编写命令,直接操作数据库,也可以利用信息系统中由开发人员事先编写好的程序去操作数据库。在本项目中,我们仅涉及使用结构化查询语言直接操作数据库。管理网上书店数据库使用结构化查询语言图 2-17 查询网上书店数据库数据管理与分析4444项目学习指引1.添加数据网上书店的运营过程中会产生大量数据,需要频繁地对网上书店数据库进行操作。通过在数据库管理系统中使用结构化查询语言编写
105、SQL 语句,可以方便地对网上书店数据库进行添加、查询、更新和删除数据等操作。项目四创建的网上书店数据库还没有存储数据,因此,可以向数据库的各表中添加数据。少量数据可以采用逐条添加的方法,较多数据可以采用批量添加的方法。以职员表为例,要将如图 2-18 所示的数据添加至职员表中,可以采取以下两种方法。核心概念结构化查询语言(Struc-tured Query Language,简称 SQL),是一种数据库查询语言,用于存取数据以及查询、更新和管理关系数据库系统。参见 P47 知识链接“结构化查询语言”小贴士添加数据语句的格式是:INSERT INTO表名(字段名 1,)VALUES(值 1,)
106、;中的内容为可选项。1.如果数据量高达几百条,那么批量添加的方式就不那么高效,有无其他方式可以高效地将数据存储到数据库中?具体方式是怎样的?2.用户浏览网上书店的书目或下单时,会改变网上书店数据库中各表的记录。但对于用户来说,他们并不直接操作数据库,那么,数据库中的记录是如何被改变的呢??思考与讨论?编号登录名密码真实姓名电话电子邮箱1zhangliang12ab56张亮2wangweiWw#123王伟方法一:逐条添加。例如,在 MySQL 中输入如下 SQL 语句,按回车键,向职员表中添加一条记录。类似的,再输入下一条语句,添加下一条记录。INSERT INTO 职员 VALUES(1,zh
107、angliang,12ab56,张亮,8658051,);方法二:批量添加。例如,在 MySQL 中输入如下 SQL 语句,按回车键,向职员表中添加两条记录。INSERT 职员 VALUES(1,zhangliang,12ab56,张亮,8658051,),(2,wangwei,Ww#123,王伟,8605202,);图 2-18 职员表新增数据第二单元 数据管理4545小贴士数据库的查询通常由选择、投影、连接、聚集、排序等操作构成。投影操作的目的是对查询结果的属性进行筛选。当 SELECT 语句仅指定被查询表中的部分属性时,数据库管理系统会执行投影操作。排序操作的目的是将查询结果按照某个属性
108、从大到小或从小到大排列。从小到大称为升序,从大到小称为降序。选择操作的目的是在一张表中筛选出符合某些条件的对象。在 SQL 查询语句中,一旦出现了由 WHERE 指定的选择条件,则是在告诉数据库管理系统需要执行选择操作。活 动5.1 网上书店最近新采购了一批图书,请将这些图书的数据批量添加至数据库的图书表中(新购图书数据见配套资源中的“新购图书表.xls”文件)。2.查询数据数据添加完成后,可以使用 SQL 语句查询数据。查看职员表中的数据,查询语句如下:SELECT*FROM 职员;如果需要查询职员表中登录名与其真实姓名的对应关系,可以在 SELECT 后指明需要查询的字段名,即投影操作,该
109、查询语句如下:SELECT 登录名,真实姓名 FROM 职员;如果要根据职员的真实姓名对查询结果进行排序,可以在 SELECT 语句的 ORDER BY 后加上排序的依据,即排序操作,该查询语句如下:SELECT 登录名,真实姓名 FROM 职员 ORDER BY 真实姓名;如果只查询某个职员的部分数据时,可以在 SELECT 后指明需要查询的内容,在 WHERE 后指明查询条件,即选择操作。以查询真实姓名为“王伟”的职员为例,查询语句如下:SELECT 登录名,真实姓名,电话,电子邮箱 FROM 职员 WHERE 真实姓名=王伟;小贴士查询数据语句的功能很强大,其语句简单的格式如下:SELE
110、CT 或*FROM WHERE;*代表查询所有的字段。数据管理与分析46463.更新数据已经存在于数据库中的数据,可以使用 UPDATE 语句对满足条件的记录进行更新。以更新密码为例,登录名在职员表中唯一,因此可以将职员表中登录名为“liming”的密码更改为“LiMing456”,更新语句如下:UPDATE 职员 SET 密码=LiMing456 WHERE 登录名=liming;1.“%”是一个通配符,用于表示任意长度的一段文字。如果想查找书名中含有“大数据”一词的书,条件表达式是怎样的?2.以上查询都是针对一张表的查询。能否从两张表或更多表中查询出需要的信息?具体查询方法是怎样的??思考
111、与讨论?如果要统计姓李的职员有几位,可以使用 COUNT 函数实现统计查询,查询语句如下:SELECT COUNT(真实姓名)FROM 职员 WHERE 真实姓名 LIKE 李%;小贴士统计查询是 SQL 查询的一项强大功能。通过使用函数(如 COUNT、SUM、AVG 等),可以在查询结果集上进行统计计算(如统计总数、求和、求平均值等),获得统计结果。活 动5.2 使用查询语句,随机查询已经添加至图书表中的图书数据,核对添加的数据是否有误。再完成以下数据的查询工作。(1)查找作家莫言的所有图书的书名和出版日期。(2)查找作家莫言在 2009 年出版的图书的所有信息,并按出版时间排序。(3)查
112、找书名中包含“哲学”的图书。(4)统计书名中包含“哲学”的图书的数量。小贴士更新数据语句的格式是:UPDATE SET=,=,WHERE;第二单元 数据管理47474.删除数据当某个职员(如王伟)离职后,需要注销其个人账号,就要从网上书店数据库的职员表中删除该职员的数据。删除语句如下:DELETE FROM 职员 WHERE 登录名=wangwei;在具体操作中,UPDATE 语句与 DELETE 语句对数据有何影响??思考与讨论?小贴士删除数据语句的格式是:DELETE FROM WHERE;使用 DELETE 语句,一次可以删除一条记录,也可以删除多条记录。活 动5.3 完成以下的数据更新
113、工作。(1)类别编号为“1”的图书销售量不错,故网上书店对类别编号为“1”的图书均分别补了 100 本,请更新相关图书的库存量。(2)某职员发现职员表数据有误,请根据配套资源中的“职员.xls”更新数据库中的职员数据。活 动5.4 有些图书网上书店不再出售,需要清除数据(假设这些图书均未产生订单),请从数据库中删除满足下列条件的数据。(1)库存量为 0 的图书。(2)出版日期在 2000 年前的图书。结构化查询语言结构化查询语言简称 SQL 语言。SQL 语言作为一种十分重要的标准数据库语言,其功能强大,简单易学,被广大数据库开发人员普遍使用。关系数据库系统大多采用 SQL 语言知识链接数据管
114、理与分析4848作为共同的数据库操作语言,尽管各个数据库管理系统使用的 SQL 版本不同,但都具有标准 SQL(ANSI SQL)的功能,包括数据定义、数据查询、数据操作和数据控制四个方面。在本项目中,用 SQL 语言进行了数据查询、添加、更新和删除等基本操作。下面以 MySQL 提供的 SQL 语言为例,介绍 SQL 语言的常用语句。1.数据查询数据查询是数据库的核心操作,其功能是根据用户的需要以一种可读的方式从数据库中提取所需数据。SQL 的查询语句只有一条 SELECT 语句,但是它几乎能完成各种查询任务,如选择查询、投影查询、多表查询、数据统计、结果排序等。在 MySQL 中,所有的查
115、询都是由 SELECT 语句实现的。MySQL 中 SQL 查询语句的基本结构如下:SELECT*或 或 或 FROM 或 或 WHEREGROUP BYHAVINGORDER BY;SELECT 语句的功能是从 FROM 子句指定的表中,选择满足条件(由 WHERE 子句指定)的数据,并对它们进行分组、统计和排序,形成查询结果集。其中,指要查询的字段,若查询所有字段,则 可用“*”代替。指要查询的表,WHERE 子句中的 用来限定查询的条件。GROUP BY 子句的作用是将结果按 的值进行分组,即将字段值相等的记录分为一组,实现数据的分组统计。HAVING 子句用来限定分组必须满足的条件。O
116、RDER BY 子句用来对结果按 的值进行排序,默认是按照该字段值的升序排序,如果需要按照该字段值的降序排序,则“排序选项”可以指定关键字 DESC。2.数据操作数据操作语句包括 INSERT、UPDATE 和 DELETE 三种基本形式,分别适用于实现添加、更新和删除数据的操作。(1)INSERT 语句INSERT 语句主要用来向表中添加数据,使用 INSERT 语句可以一次向表中添加一条记录,也可以一次向表中添加多条记录。INSERT 语句的基本格式如下:INSERT INTO (字段名 1,)VALUES(值 1,);其中,指新记录将要插入的表;VALUES(值 1,)用来指明新添加记录
117、的各字段的值。使用此格式向表中添加记录时,一定要以表中的字段为准,字段名和值必须一一对应。第二单元 数据管理4949(2)UPDATE 语句UPDATE 语句主要用于修改表中字段的值,可以一次修改一个字段的数据,也可以同时修改多个字段的数据。UPDATE 语句的基本格式如下:UPDATE SET =,=,WHERE;其中,用于指明要修改的表,SET 子句用于指明要修改的 及具体的值,WHERE 子句用于限定满足修改条件的记录。UPDATE 语句的功能是对表中满足 WHERE 子句指定条件的记录进行修改,SET 子句指定新的值取代相应字段原来的值。(3)DELETE 语句DELETE 语句也叫数
118、据删除语句,其基本格式如下:DELETE FROM WHERE;其中,用于指明要删除的数据所在的表,WHERE 子句表示要删除的数据需要满足的条件。如果不写 WHERE 子句则表明清空当前表,即表的结构还在,但是里面包含的所有数据都被删除了。数据管理与分析5050一、项目任务任课教师会对学生每次作业给予不同的评分与评价。如果不存储与管理这些数据,教师对学生每次作业的评分与评价将会随着作业本的丢弃而遗失。在学习了数据管理相关内容后,你能否创建一个年级作业评价数据库管理这些数据?尝试以小组为单位,分工合作,设计并创建年级作业评价数据库;在数据库创建完成后,以小组互评的形式评价各组的数据库。二、项目
119、指引1.在班级里开展调查,分析年级作业评价数据库有哪些应用和需求,有哪些业务流程。2.根据业务需求,确定年级作业评价数据库的实体集和属性,并定义主关键字及实体集间的联系。3.建立年级作业评价数据库的关系数据模型,确定表、主关键字和表间联系。4.选择合适的数据库管理系统,根据设计的表,创建年级作业评价数据库,并录入一些数据至数据库中。单元挑战 建立年级作业评价数据库表名内容字段名数据类型字段大小字段名数据类型字段大小5.请其他小组提出一些需求或数据查询任务,使用结构化查询语言查询数据,根据任务完成情况进行互评。三、交流评价与反思在班级里展示并交流小组创建数据库过程中所完成的需求分析、确定实体集和
120、联系、建立数据模型等工作,以及根据其他小组所提需求开展的数据查询工作。对本组的工作进行自评并对其他小组进行评价。第二单元 数据管理5151一、主要内容梳理二、单元练习单元小结1.网上书店其实是一个比较庞大的信息系统,本单元中仅简单介绍了其中的一部分功能。尝试完成以下任务。(1)如果需求分析中增加了职员管理、订单配送或其他功能,应该考虑设计哪些表?选择一种新增的功能重新设计数据库。(2)确定新增的各表的主关键字及表间联系。2.在实际工作中,书店职员或数据库管理员对网上书店的操作是非常多样且复杂的。尝试通过上网学习,回答以下问题。(1)当职员离开工作岗位时,应该对数据库表进行什么操作?(2)在系统
展开阅读全文
课堂库(九科星学科网)所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。


2019届人教A版数学必修二同步课后篇巩固探究:2-1-1 平面 WORD版含解析.docx
