2023高考数学科学复习创新方案(新高考题型版) 第10章 第3讲 成对数据的统计分析 WORD版含解析.doc
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
8 0人已下载
| 下载 | 加入VIP,免费下载 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023高考数学科学复习创新方案新高考题型版 第10章 第3讲成对数据的统计分析 WORD版含解析 2023 高考 数学 科学 复习 创新 方案 新高 题型 10 成对 数据 统计分析 WORD
- 资源描述:
-
1、第3讲成对数据的统计分析1相关关系(1)相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系(2)相关关系的分类按变量间的增减性分为正相关和负相关正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势按变量间是否有线性特征分为线性相关或非线性相关(曲线相关)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们就称这两个变量非线性相关或曲线相关2相关关系的刻画(1
2、)散点图:为了直观描述成对样本数据的特征,把每对成对数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图(2)样本相关系数我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中r.样本相关系数r的取值范围为1,1.若r0时,成对样本数据正相关;若r0时,成对样本数据负相关;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱3一元线性回归模型称为Y关于x的一元线性回归模型其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bxa之间的随机误差,如果e0,那么Y与x之间的
3、关系就可以用一元线性函数模型来描述4最小二乘法将 x称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中, .5残差与残差分析(1)残差对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差(2)残差分析残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析6对模型刻画数据效果的分析(1)残差图法在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内
4、,则说明经验回归方程较好地刻画了两个变量的关系(2)残差平方和法残差平方和 (yii)2越小,模型的拟合效果越好(3)决定系数R2法可以用决定系数R21来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差7列联表与独立性检验(1)22列联表22列联表给出了成对分类变量数据的交叉分类频数.定义一对分类变量X和Y,我们整理数据如下表所示:XY合计Y0Y1X0ababX1cdcd合计acbdnabcd像这种形式的数据统计表称为22列联表(2)独立性检验定义:利用2的取值推断分类变量X和Y是否独立的方法称为2独立性检验,读作“卡方独立性检验”简称独立性检验2,其中nabcd
5、.(3)独立性检验解决实际问题的主要环节提出零假设H0:X和Y相互独立,并给出在问题中的解释根据抽样数据整理出22列联表,计算2的值,并与临界值x比较根据检验规则得出推断结论在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律1相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系2回归直线 x必过样本点的中心(,)1下面是一个22列联表:XY合计y1y2x1a2173x2222547合计b46120其中a,b处填的值分别为()A94,72 B
6、52,50C52,74 D74,52答案C解析由a2173,得a52,a22b,得b74.故选C.2甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表: 甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现的A,B两变量有更强的线性相关性()A甲 B乙 C丙 D丁答案D解析|r|越接近1,m越小,线性相关性越强,故选D.3已知相关变量x和y满足关系y0.1x1,相关变量y与z负相关下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关
7、Dx与y负相关,x与z正相关答案D解析由y0.1x1可得x与y负相关因为y与z负相关,可设z y,6.635,故有99%以上的把握认为“爱好该项运动与性别有关”故选A.5若已知 (yi)2是 (xi)2的4倍, (xi)(yi)是 (xi)2的1.5倍,则相关系数r的值为_.答案解析由r,得r.6(2022山西太原摸底)某产品的广告费用x与销售额y的统计数据如下表: 广告费用x(万元)4235销售额y(万元)49263954根据上表可得经验回归方程 x中的为9.4,据此模型预测广告费用为6万元时销售额约为_万元答案65.5解析由表可得3.5,42,因为点(3.5,42)在经验回归直线 x上,且
8、9.4,所以429.43.5,解得9.1.故经验回归方程为9.4x9.1.令x6,得65.5.故预测广告费用为6万元时销售额约为65.5万元多角度探究突破考向一两个变量的相关性角度相关关系的判断例1(1)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用经验回归方程 x近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A线性相关关系较强,的值为1.25B线性相关关系较强,的值为0.83C线性相关关系较强,的值为0.87D线性相关关系较弱,无研究价值答案B解析由散点图可以看出两个变量所构成的点在一条直线附近,所以
9、线性相关关系较强,且应为正相关,所以经验回归方程的斜率应为正数,且从散点图观察,经验回归方程的斜率应该比直线yx的斜率要小一些,综上可知应选B.(2)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下: 月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是()A利润率与人均销售额成正相关关系B利润率与人均销售额成负相关关系C利润率与人均销售额成正比例函数关系D利润率与人均销售额成反比例函数关系答案A解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误
10、故选A.角度相关系数的意义例2(2020全国卷节选)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i1,2,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi60,yi1200, (xi)280, (yi)29000, (xi)(yi)800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i
11、1,2,20)的相关系数(精确到0.01)附:相关系数r,1.414.解(1)每个样区野生动物数量的平均数为yi120060,地块数为200,所以该地区这种野生动物数量的估计值为2006012000.(2)样本(xi,yi)的相关系数为r0.94. 判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某条曲线附近,变量之间就有相关关系如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系(2)相关系数法:利用相关系数判定,|r|越趋近于1,相关性越强1.(2022贵阳摸底)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()Ar2r40r3r1 Br4r2
12、0r1r3Cr4r20r3r1 Dr2r40r1r3答案A解析易知题中图与图是正相关,图与图是负相关,且图与图中的样本点集中分布在一条直线附近,则r2r40r3r1.2为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得i9.97,s 0.212, 18
13、.439,(xi)(i8.5)2.78,其中xi为抽取的第i个零件的尺寸,i1,2,16.(1)求(xi,i)(i1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(3s,3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查从这一天抽检的结果看,是否需对当天的生产过程进行检查?在(3s,3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确
14、到0.01)附:样本(xi,yi)(i1,2,n)的相关系数r.参考数据:0.09.解(1)由样本数据,得(xi,i)(i1,2,16)的相关系数r0.18.由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(2)由于9.97,s0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(3s,3s)以外,因此需对当天的生产过程进行检查剔除离群值,即第13个数据,剩下数据的平均数为(169.979.22)10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.160.2122169.9721591.134,剔除第13个数据,剩下数据的样本方差
15、为(1591.1349.2221510.022)0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.09.多角度探究突破考向二回归分析角度线性回归模型例3为保证新能源汽车的推广,某市逐渐加大充电基础设施的建设,该市统计了近五年新能源汽车充电站的数量(单位:个),得到如下数据: 年份编号x12345年份20162017201820192020数量y/个37104147196226(1)已知可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(2)求y关于x的经验回归方程,并预测2024年该市新能源汽车充电站的数量参考数据:yi710,xiyi2600, 149.89, 3.16.参
16、考公式:相关系数r,经验回归方程 x中斜率和截距的最小二乘估计公式分别为, .解(1)由已知数据得(12345)3,710142, (xi)2(2)2(1)2012210, (xi)(yi)xiyi5260053142470,所以r0.99.因为y与x的相关系数近似为0.99,接近1,说明y与x的线性相关程度相当高,从而可以用线性回归模型拟合y与x的关系(2)由(1)得47, 1424731,故所求经验回归方程为47x1,将2024年对应的年份编号x9代入经验回归方程得4791424,故预测2024年该市新能源汽车充电站的数量为424个角度非线性回归模型例4某公司为确定下一年度投入某种产品的宣
17、传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值 (xi)2 (wi)2 (xi)(yi) (wi)(yi)46.65636.8289.81.61469108.8表中wi,wi.(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的经验回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题
18、:年宣传费x49时,年销售量及年利润的预测值是多少?年宣传费x为何值时,年利润的预测值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其经验回归方程 v u的斜率和截距的最小二乘估计分别为, .解(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的经验回归方程类型(2)令w,先建立y关于w的经验回归方程由于68,563686.8100.6,所以y关于w的经验回归方程为100.668w,因此y关于x的经验回归方程为100.668.(3)由(2)知,当x49时,年销售量y的预测值为100.668576.6(千元),年利润z的预测值为576.60.24966.32(
19、千元)根据(2)的结果知,年利润z的预测值0.2(100.668)xx13.620.12.所以当6.8,即x46.24时,取得最大值故年宣传费为46.24千元时,年利润的预测值最大 (1)正确理解计算,的公式和准确的计算是求经验回归方程的关键(2)经验回归方程 x必过样本点的中心(,)(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过经验回归方程来估计和预测(4)对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解3.某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y
20、(单位:万元)的数据如下表: 月份123456广告投入量/万元24681012收益/万元14.2120.3131.831.1837.8344.67他们用两种模型ybxa,yaebx分别进行拟合,得到相应的经验回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值: xiyix7301464.24364(1)根据残差图,比较模型,的拟合效果,应选择哪个模型?并说明理由;(2)残差绝对值大于2的数据被认为是异常数据,需要剔除剔除异常数据后,求出(1)中所选模型的经验回归方程;广告投入量x18时,(1)中所选模型收益的预测值是多少?附:对于一组数据(x1,y1),(x2,y2),(xn,yn)
21、,其经验回归方程 x的斜率和截距的最小二乘估计分别为, .解(1)应该选择模型,因为模型的残差点比较均匀地落在以横轴为对称轴的水平带状区域中,且模型的带状区域比模型的带状区域窄,所以模型的拟合精度高,回归方程的预测精度高(2)剔除异常数据,即3月份的数据后,得(766)7.2,(30631.8)29.64.xiyi1464.24631.81273.44,x36462328.3, 29.6437.28.04.所以y关于x的经验回归方程为3x8.04.把x18代入中所求经验回归方程得3188.0462.04,故预测值为62.04万元考向三独立性检验例5(1)为考察某种药物对预防禽流感的效果,在四个
22、不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高堆积条形图,最能体现该药物对预防禽流感有效果的图形是()答案D解析在等高堆积条形图中,与相差很大时,我们认为两个分类变量有关系,在四个选项中(等高的条形图)中,选项D中不服药样本中患病的频率与服药样本中患病的频率相差最大,故选D.(2)某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24
展开阅读全文
课堂库(九科星学科网)所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
链接地址:https://www.ketangku.com/wenku/file-301432.html


鄂教版七年级语文下册第8课《诗两首》精题精练.doc
二年级上册语文习题课件-第一单元综合测评卷|人教(部编版) (共11张PPT).ppt
