山东高考数学一轮总复习教学案设计参考-变量间相关关系与统计案例含答案解析
第 第 3 讲 讲 变量间的相关关系与统计案例 [考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求 2×2 列联表)的基本思想、方法及其初步应用. [考向预测] 从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2021 年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型. 1.相关关系与回归方程(1)相关关系的分类 ①正相关:从散点图上看,点散布在从□ 01左下角到□ 02右上角的区域内,如图1; ②负相关:从散点图上看,点散布在从□ 03左上角到□ 04右下角的区域内,如图2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在□ 05一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做□ 06回归直线.(3)回归方程 ①最小二乘法:使得样本数据的点到回归直线的□ 07距离的平方和最小的方法叫做最小二乘法. ②回归方程:两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),„,(x n,y n),其回归方程为y^=b^x+a^,则b^=i = 1n x i - x- yi - y- i = 1n x i - x- 2=i = 1nx i y i -n x-y-i = 1nx 2 i -n x- 2,a^= y- -b^ x-.其中,b^是回归方程的□ 08斜率,a^是在 y 轴上的□ 09截距,x- = 1n ∑ni = 1 x i,y- = 1n ∑ni = 1 y i,□10(x-,y -)称为样本点的中心. 说明:回归直线y^=b^x+a^必过样本点的中心(x-,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数 r=i = 1n x i - x- yi - y- i = 1n x i - x- 2 i = 1n y i - y- 2,用它来衡量两个变量间的线性相关关系. ①当 r>0 时,表明两个变量□ 11正相关; ②当 r<0 时,表明两个变量□ 12负相关; ③r 的绝对值越接近1,表明两个变量的线性相关性□ 13越强;r 的绝对值接近于 0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75 时,认为两个变量有很强的线性相关关系. 2.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),„,(x n,y n),它们的随机误差为 e i=y i -bx i -a,i=1,2,„,n,其估计值为e^i =y i -y^i =y i -b^x i -a^,i=1,2,„,n,e^i 称为相应于点(x i,y i)的残差.(2)残差平方和为∑ni = 1(y i -y^i)2.(3)相关指数:R 2 =1-□ 01∑ni = 1 y i -y^i 2∑ni = 1 y i - y- 2.3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的□ 01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的□ 02频数表,称为列联表.假设有两个分类变量 X 和 Y,它们的可能取值分别为{x 1,x 2 }和{y 1,y 2 },其样本频数列联表(称为 2×2列联表)为 2×2 列联表 y 1 y 2 总计 x 1 a b a+b x 2 c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量 K 2 =□ 03nad-bc 2a+bc+da+cb+d,其中 n=□04a+b+c+d为样本容量.(3)独立性检验 利用随机变量□05K2 来判断“两个分类变量□06有关系”的方法称为独立性检验. 1.概念辨析(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.()(2)“名师出高徒”可以解释为教师的教学水平与学生水平成正相关关系.()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()(4)事件 X,Y 关系越密切,则由观测数据计算得到的 K 2 的观测值越大.()(5)由独立性检验可知,有 99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有 99%的可能物理优秀.()答案(1)×(2)√(3)√(4)√(5)× 2.小题热身(1)设回归方程为y^=3-5x,则变量 x 增加一个单位时()A.y平均增加 3 个单位 B.y平均减少 5 个单位
C.y平均增加 5 个单位 D.y平均减少 3 个单位 答案 B 解析 因为-5 是斜率的估计值,说明 x 每增加一个单位,y平均减少 5 个单位.故选 B.(2)在下列各图中,两个变量具有相关关系的图是()A.①② B.①③ C.②④ D.②③ 答案 D 解析 ①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性.(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了 100 位育龄妇女,结果如表. 非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计 58 42 100 算得 K 2 = 100×45×22-20×13258×42×35×65≈9.616.附表:
P(K 2 ≥k 0)0.050 0.010 0.001 k 0 3.841 6.635 10.828 参照附表,得到的正确结论是()A.在犯错误的概率不超过 0.1%的前提下,认为“生育意愿与城市级别有关” B.在犯错误的概率不超过 0.1%的前提下,认为“生育意愿与城市级别无关” C.有 99%以上的把握认为“生育意愿与城市级别有关” D.有 99%以上的把握认为“生育意愿与城市级别无关”
答案 C 解析 因为 K 2 ≈9.616>6.635,所以有 99%以上的把握认为“生育意愿与城市级别有关”.(4)已知变量 x,y 具有线性相关关系,它们之间的一组数据如下表所示,若 y关于 x 的回归方程为y^=1.3x-1,则 m=________.x 1 2 3 4 y 0.1 1.8 m 4 答案 3.1 解析 由已知得 x- = 14 ×(1+2+3+4)=2.5,y- = 14(0.1+1.8+m+4)=14 ×(5.9+m). 因为(x-,y -)在直线y^=1.3x-1 上,所以 y- =1.3×2.5-1=2.25,所以 14 ×(5.9+m)=2.25,解得 m=3.1.题型一 相关关系的判断 1.下列两变量中不存在相关关系的是()①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费. A.①②⑤ B.①③⑥ C.④⑤⑥ D.②⑥ 答案 A 解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系.2.下列命题中正确的为()A.线性相关系数 r 越大,两个变量的线性相关性越强 B.线性相关系数 r 越小,两个变量的线性相关性越弱
C.残差平方和越小的模型,模型拟合的效果越好 D.用相关指数 R 2 来刻画回归效果,R 2 越小,说明模型的拟合效果越好 答案 C 解析 线性相关系数 r 的绝对值越接近于 1,两个变量的线性相关性越强,故A,B 错误;残差平方和越小,相关指数 R 2 越大,越接近于 1,拟合效果越好,故C 正确,D 错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r 2
(1)残差平方和越小,拟合效果越好.见举例说明 2.(2)相关指数 R 2 越大,越接近于 1,拟合效果越好.1.在一组样本数据(x 1,y 1),(x 2,y 2),„,(x n,y n)(n≥2,x 1,x 2,„,x n 不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,„,n)都在直线 y= 12 x+1 上,则这组样本数据的样本相关系数为()A.-1 B.0 C.12 D.1 答案 D 解析 所有点均在直线上,则样本相关系数最大即为 1,故选 D.2.四名同学根据各自的样本数据研究变量 x,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:
①y 与 x 负相关且y^=2.347x-6.423; ②y 与 x 负相关且y^=-3.476x+5.648; ③y 与 x 正相关且y^=5.437x+8.493; ④y 与 x 正相关且y^=-4.326x-4.578.其中一定不正确的结论的序号是()A.①② B.②③ C.③④ D.①④ 答案 D 解析 由回归方程y^=b^x+a^知当b^>0 时,y 与 x 正相关,当b^<0 时,y 与 x 负相关,∴①④一定错误. 题型二 回归分析 角度 1 线性回归方程及应用 1.某汽车的使用年数 x 与所支出的维修总费用 y 的统计数据如表:
使用年数 x/年 1 2 3 4 5
维修总费用 y/万元 0.5 1.2 2.2 3.3 4.5 根据上表可得 y 关于 x 的线性回归方程y^=b^x-0.69,若该汽车维修总费用超过 10 万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足 1 年按 1年计算)()A.8 年 B.9 年 C.10 年 D.11 年 答案 D 解析 由y关于 x 的线性回归直线y^=b^x-0.69过样本点的中心(3,2.34),得b^=1.01,即线性回归方程为y^=1.01x-0.69,令y^=1.01x-0.69=10,得 x≈10.6,所以预测该汽车最多可使用 11 年.故选 D.2.(2019·东北三省三校三模)现代社会,“鼠标手”已成为常见病.一次实验中,10 名实验对象进行 160 分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为 180 次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率(sEMG)等指标.(1)10 名实验对象实验前、后握力(单位:N)测试结果如下:
实验前:346,357,358,360,362,362,364,372,373,376.实验后:313,321,322,324,330,332,334,343,350,361.完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少N?(2)实验过程中测得时间 t(分)与 10 名实验对象前臂表面肌电频率(sEMG)的中位数 y(Hz)的九组对应数据(t,y)为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75).建立 y 关于时间 t 的线性回归方程;(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中 9 组数据分析,使用鼠标多少分钟就该进行休息了? 参考数据:∑9i = 1(t i - t)(y i - y-)=-1800;
参考公式:回归方程y^=b^t+a^中斜率和截距的最小二乘估计公式分别为:b^=∑ni = 1 t i - t y i - y- ∑ni = 1 t i - t 2,a^= y- -b^ t 解(1)根据题意得到茎叶图如下图所示:
由图中数据可得 x-1 =110 ×(346+357+358+360+362+362+364+372+373+376)=363,x-2 =110 ×(313+321+322+324+330+332+334+343+350+361)=333,∴ x-1 - x-2 =363-333=30(N),∴故实验前后握力的平均值下降了 30 N.(2)由题意得 t = 19(0+20+40+60+80+100+120+140+160)=80,y- = 19 ×(87+84+86+79+78+78+76+77+75)=80,∑9i = 1(t i - t)2 =(0-80)2 +(20-80)2 +(40-80)2 +(60-80)2 +(80-80)2 +(100-80)2 +(120-80)2 +(140-80)2 +(160-80)2 =24000,又∑9i = 1(t i - t)(y i - y-)=-1800,∴b^=∑9i = 1 t i - t y i - y- ∑9i = 1 t i - t 2= -180024000=-0.075,∴a^= y- -b^t =80-(-0.075)×80=86,∴y 关于时间 t 的线性回归方程为y^=-0.075t+86.(3)九组数据中 40 分钟到 60 分钟 y 的下降幅度最大,提示 60 分钟时肌肉已经进入疲劳状态,故使用鼠标 60 分钟就该休息了.
角度 2 非线性回归模型的应用 3.(2019·莆田二模)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量 x i(单位:亿元)对年销售额 y i(单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y=α+βx 2,②y=e λx+ t,其中 α,β,λ,t 均为常数,e 为自然对数的底数. 现该公司收集了近12 年的年研发资金投入量 x i 和年销售额 y i 的数据,i=1,2,„,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值. 令 u i =x 2,v i =ln y i(i=1,2,„,12),经计算得如下数据:
x- y- i = 112(x i - x-)2 i = 112(y i - y-)2 u- v- 20 66 770 200 460 4.20 i = 112(u i - u-)2 i = 112(u i - u-)·(y i - y-)i = 112(v i - v-)2 i = 112(x i - x-)·(v i - v-)3125000 21500 0.308 14(1)设{u i }和{y i }的相关系数为 r 1,{x i }和{v i }的相关系数为 r 2,请从相关系数的角度,选择一个拟合程度更好的模型;(2)①根据(1)的选择及表中数据,建立 y 关于 x 的回归方程(系数精确到 0.01); ②若下一年销售额 y 需达到 90 亿元,预测下一年的研发资金投入量 x 是多少亿元?
附:相关系数 r=i = 1n x i - x- yi - y- i = 1n x i - x- 2 i = 1n y i - y- 2,回归直线y^=a^+b^x 中斜率和截距的最小二乘估计公式分别为b^=i = 1n x i - x- yi - y- i = 1n x i - x- 2,a^= y- -b^ x- ; 参考数据:308=4×77,90≈9.4868,e 4.4998 ≈90.解(1)由题意,r 1 =i = 112 u i - u- yi - y- i = 112 u i - u- 2 i = 112 y i - y- 2 =2***×200 =2150025000 =4350 =0.86, r 2 =i = 112 x i - x- vi - v- i = 112 x i - x- 2 i = 112 v i - v- 2=14770×0.308 =1477×0.2 =1011 ≈0.91, 则|r 1 |<|r 2 |,因此从相关系数的角度,模型 y=e λx+ t的拟合程度更好.(2)①先建立 v 关于 x 的线性回归方程,由 y=e λx+ t,得 ln y=t+λx,即 v=t+λx; 由于 λ=i = 112 x i - x- vi - v- i = 112 x i - x- 2=14770 ≈0.018,t= v- -λ x - =4.20-0.018×20=3.84,所以 v 关于 x 的线性回归方程为v^=0.02x+3.84,所以 ln y^=0.02x+3.84,则y^=e 0.02x+ 3.84.②下一年销售额 y 需达到 90 亿元,即 y=90,代入y^=e 0.02x+ 3.84,得 90=e 0.02x + 3.84,又 e 4.4998 ≈90,所以 4.4998≈0.02x+3.84, 所以 x≈ 4.4998-3.840.02=32.99,所以预测下一年的研发资金投入量约是 32.99 亿元. 1.利用线性回归方程时的关注点(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x-,y -).见举例说明 1.(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测. 2.非线性回归方程的求法(1)根据原始数据(x,y)作出散点图.(2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见举例说明 3.1.(2019·南宁二模)一汽车销售公司对开业 4 年来某种型号的汽车“五一”优惠金额与销售量之间的关系进行分析研究并做了记录,得到如下资料. 日期 第 1 年 第 2 年 第 3 年 第 4 年 优惠金额 x(千元)10 11 13 12 销售量 y(辆)22 24 31 27
经过统计分析(利用散点图)可知 x,y 线性相关.(1)用最小二乘法求出 y 关于 x 的线性回归方程y^=b^x+a^;(2)若第 5 年优惠金额为 8.5 千元,估计第 5 年的销售量 y(辆)的值. 参考公式:b^=i = 1n x i - x- yi - y- i = 1n x i - x- 2=i = 1nx i y i -n x-y-i = 1nx 2 i -n x- 2,a^= y- -b^ x-.解(1)由题意,得 x- =11.5,y - =26,i = 14x i y i =1211,i = 14x 2 i =534,∴b^=i = 14x i y i -4 x-y-i = 14x 2 i -4 x- 2= 1211-4×11.5×26534-4×11.5 2= 155=3,则a^= y- -b^ x- =26-3×11.5=-8.5.∴y^=3x-8.5.(2)当 x=8.5 时,y^=17,∴第 5 年优惠金额为 8.5 千元时,销售量估计为 17辆. 2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y=bx+a,②y=ce dx 拟合,得到回归方程分别为y^(1)=0.24x-8.81,y^(2)=1.70e 0.022x,作残差分析,如下表:
身高 x(cm)60 70 80 90 100 110 体重 y(kg)6 8 10 14 15 18 e^(1)0.41 0.01 1.21 -0.19 0.41 e^(2)-0.36 0.07 0.12 1.69 -0.34 -1.12(1)求表中空格内的值;(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)若残差大于 1 kg 的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)
附:对于一组数据(x 1,y 1),(x 2,y 2),„,(x n,y n),其回归直线y^=b^x+a^的斜率和截距的最小二乘估计分别为b^=∑ni = 1 x i - x- yi - y- ∑ni = 1 x i - x- 2,a^= y- -b^ x-.解(1)根据残差分析,把 x=80 代入y^(1)=0.24x-8.81 中,得y^(1)=10.39.∵10-10.39=-0.39,∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为 0.41+0.01+0.39+1.21+0.19+0.41=2.62,模型②残差的绝对值的和为 0.36+0.07+0.12+1.69+0.34+1.12=3.7.∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于 1 kg 的样本点被剔除后,剩余的数据如下表:
身高 x(cm)60 70 80 100 110 体重 y(kg)6 8 10 15 18 e^(1)0.41 0.01 -0.39 -0.19 0.41 由公式b^=∑ni = 1 x i - x- yi - y- ∑ni = 1 x i - x- 2,a^= y- -b^ x-,得回归方程为y^=0.24x-8.76.题型三 独立性检验 1.假设有两个分类变量 X 和 Y 的 2×2 列联表如下:
Y X y 1 y 2 总计 x 1 a 10 a+10 x 2 c 30 c+30 总计 60 40 100 对同一样本,以下数据能说明 X 与 Y 有关系的可能性最大的一组为()A.a=45,c=15 B.a=40,c=20
C.a=35,c=25 D.a=30,c=30 答案 A 解析 根据 2×2 列联表与独立性检验可知,当aa+10 与cc+30 相差越大时,X与 Y 有关系的可能性越大,即 a,c 相差越大,aa+10 与cc+30 相差越大.故选 A.2.(2019·南昌三模)某校高三文科(1)班共有学生 45 人,其中男生 15 人,女生30 人.在一次地理考试后,对成绩作了数据分析(满分 100 分),成绩为 85 分以上的同学称为“地理之星”,得到了如下列联表:
地理之星 非地理之星 合计 男生 7 女生 合计 如果从全班 45 人中任意抽取 1 人,抽到“地理之星”的概率为 13.(1)完成“地理之星”与性别的 2×2 列联表,并回答是否有 90%以上的把握认为获得“地理之星”与“性别”有关?(2)若已知此次考试中获得“地理之星”的同学的成绩平均值为 90,方差为7.2,请你判断这些同学中是否有得到满分的同学,并说明理由.(得分均为整数分)参考公式:K 2 =nad-bc 2a+bc+da+cb+d,其中 n=a+b+c+d.临界值表:
P(K 2 ≥k 0)0.10 0.05 0.010 0.005 0.001 k 0 2.706 3.841 6.635 7.879 10.828 解(1)根据题意知“地理之星”总人数为 45× 13 =15,填写列联表如下:
地理之星 非地理之星 合计 男生 7 8 15 女生 8 22 30 合计 15 30 45 根据表中数据,计算 K 2 = 45×7×22-8×8215×30×15×30=1.8<2.706,所以没有 90%的把握认为获得“地理之星”与性别有关.(2)没有得满分的同学,记各个分值由高到低分别为 x 1,x 2,„,x 15 ; ①若有 2 个以上的满分,则 s 2 =115 ×[(100-90)2 +(100-90)2 +„+(x 15 -90)2 ]> 403>7.2,不符合题意. ②若恰有 1 个满分,为使方差最小,则其他分值需集中分布在平均数 90 的附近,且为保证平均值为 90,则有 10 个得分为 89,其余 4 个得分为 90,此时方差取得最小值,∴s 2 min =115 ×[(100-90)2 +4×(90-90)2 +10×(89-90)2 ]= 223>7.2,与题意方差为 7.2 不符合,所以这些同学中没有得满分的同学.独立性检验的一般步骤(1)根据样本数据列出 2×2 列联表;(2)计算随机变量 K 2 的观测值 k,查表确定临界值 k 0 ;(3)如果 k≥k 0,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过P(K 2 ≥k 0);否则,就认为在犯错误的概率不超过 P(K 2 ≥k 0)的前提下不能推断“X与 Y 有关系”. 1.学生会为了调查学生对 2018 年俄罗斯世界杯的关注是否与性别有关,抽样调查 100 人,得到如下数据:
不关注 关注 总计 男生 30 15 45
女生 45 10 55 总计 75 25 100 根据表中数据,通过计算统计量 K 2 =nad-bc 2a+bc+da+cb+d,并参考以下临界数据:
P(K 2 ≥k 0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 若由此认为“学生对 2018 年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过()A.0.10 B.0.05 C.0.025 D.0.01 答案 A 解析 由题意可得 K 2 = 100×30×10-15×45245×55×75×25≈3.030>2.706,由此认为“学生对 2018 年俄罗斯世界杯的关注与性别有关”出错的概率不超过 0.10.故选 A.2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过 m 和不超过 m 的工人数填入下面的列联表:
超过 m 不超过 m 第一种生产方式 第二种生产方式(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?
附:K 2 =nad-bc 2a+bc+da+cb+d,P(K 2 ≥k 0)0.050 0.010 0.001 k 0 3.841 6.635 10.828 解(1)第二种生产方式的效率更高.理由如下:
①由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟,用第二种生产方式的工人中,有 75%的工人完成生产任务所需时间至多 79 分钟.因此第二种生产方式的效率更高. ②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为 85.5 分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为 73.5 分钟.因此第二种生产方式的效率更高. ③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80 分钟;用第二种生产方式的工人完成生产任务平均所需时间低于 80 分钟,因此第二种生产方式的效率更高. ④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 7 上的最多,关于茎 7 大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了 4 种理由,考生答出其中任意一种或其他合理理由均可)(2)由茎叶图知 m= 79+812=80.列联表如下:
超过 m 不超过 m 第一种生产方式 15 5 第二种生产方式 5 15(3)由于 K 2 的观测值 k= 40×15×15-5×5220×20×20×20=10>6.635,所以有 99%的把握认为两种生产方式的效率有差异.
组 基础关 1.观察下列各图形:
其中两个变量 x,y 具有相关关系的图是()A.①② B.①④ C.③④ D.②③ 答案 C 解析 观察散点图可知,两个变量 x,y 具有相关关系的图是③④.2.甲、乙、丙、丁四位同学各自对 A,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数 r 与残差平方和 m 如下表:
甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 则哪位同学的试验结果体现 A,B 两变量有更强的线性相关性()A.甲 B.乙 C.丙 D.丁 答案 D 解析 在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了 A,B 两个变量有更强的线性相关性.故选 D.3.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用 2×2 列联表进行独立性检验,经计算 K 2 =7.069,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动有关系”.()附:
P(K 2 ≥k 0)0.100 0.050 0.025 0.010 0.001 k 0 2.706 3.841 5.024 6.635 10.828
A.0.1% B.1% C.99% D.99.9% 答案 C 解析 因为 7.069 与附表中的 6.635 最接近,且 7.069>6.635,所以得到的统计学结论是:有 1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”. 4.(2019·湖北省七市(州)教科研协作体联考)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 5 次试验,得到 5 组数据:(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知 x 1 +x 2 +x 3 +x 4 +x 5 =100,用最小二乘法求得回归直线方程为y^=0.67x+54.8,则 y 1 +y 2 +y 3 +y 4 +y 5 的值为()A.68.2 B.341 C.355 D.366.2 答案 B 解析 由题意,得 x- = 1005=20,将其代入回归直线方程y^=0.67x+54.8 中,得 y- =0.67×20+54.8=68.2,所以 y1 +y 2 +y 3 +y 4 +y 5 =5 y- =341.故选 B.5.(2020·甘肃兰州摸底)根据如下样本数据:
x 1 2 3 4 5 y a-1 -1 0.5 b+1 2.5 得到的回归方程为y^=bx+a.样本点的中心为(3,0.1),当 x 增加 1 个单位,则 y近似()A.增加 0.8 个单位 B.减少 0.8 个单位 C.增加 2.3 个单位 D.减少 2.3 个单位 答案 A 解析 由题意,知 x- = 15 ×(1+2+3+4+5)=3,y- = 15 ×[(a-1)+(-1)+0.5+(b+1)+2.5]= a+b+25=0.1,① 又回归直线方程过样本中心点(3,0.1),得 3b+a=0.1,②
由①②联立,解得 a=-2.3,b=0.8,所以回归直线方程为y^=0.8x-2.3,所以当 x 增加 1 个单位时,y近似增加 0.8 个单位. 6.已知两个随机变量 x,y 之间的相关关系如下表所示:
x -4 -2 1 2 4 y -5 -3 -1 -0.5 1 根据上述数据得到的回归方程为y^=b^x+a^,则大致可以判断()参考公式:b^=∑ni = 1 x i y i -n x-y-∑ni = 1 x2i -n x- 2,a^= y- -b^ x- A.a^>0,b^>0 B.a^>0,b^<0 C.a^<0,b^>0 D.a^<0,b^<0 答案 C 解析 由已知得,x- =0.2,y - =-1.7,∴b^= 20+6-1-1+4-5×0.2×-1.716+4+1+4+16-5×0.2 2=99136 >0,∴a^=-1.7-99136 ×0.2<0,或利用散点图,易判断b^>0,a^<0.故选 C.7.(2019·湛江二模)有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的 100 名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:
男 女 合计 无 40 35 75 有 15 10 25 合计 55 45 100 附:K 2 =nad-bc 2a+bc+da+cb+d P(K 2 ≥k 0)0.50 0.40 0.25 0.15 0.10 k 0 0.455 0.708 1.323 2.072 2.706 据此表,可得()
A.认为机动车驾驶技术与性别有关的可靠性不足 50% B.认为机动车驾驶技术与性别有关的可靠性超过 50% C.认为机动车驾驶技术与性别有关的可靠性不足 60% D.认为机动车驾驶技术与性别有关的可靠性超过 60% 答案 A 解析 由表中数据,计算 K 2 = 100×40×10-35×15255×45×75×25≈0.3367<0.455,∴认为机动车驾驶技术与性别有关的可靠性不足 50%.故选 A.8.为了考察某种疫苗的效果,现随机抽取 100 只小鼠进行试验,得到如下列联表:
感染 未感染 总计 服用 10 40 50 未服用 20 30 50 总计 30 70 100 P(K 2 ≥k 0)0.10 0.05 0.025 k 0 2.706 3.841 5.024 参照附表,在犯错误的概率不超过________的前提下,认为“小动物是否被感染与服用疫苗有关”. 答案 0.05 解析 由题意得,K 2 = 100×10×30-20×40250×50×30×70≈4.762>3.841.所以在犯错误的概率不超过 0.05 的前提下,认为“小动物是否被感染与服用疫苗有关”. 9.在一组样本数据(x 1,y 1),(x 2,y 2),„,(x 6,y 6)的散点图中,若所有样本点(x i,y i)(i=1,2,„,6)都在曲线 y=bx 2 - 13 附近波动.经计算∑6i = 1 x i =11,∑6i = 1 y i =13,∑6i = 1 x2i =21,则实数 b 的值为________. 答案 57
解析 令 t=x 2,则曲线的回归方程变为线性的回归方程,即 y=bt- 13,此时 t=∑6i = 1 x2i6= 72,y- = ∑6i = 1 y i6= 136,代入 y=bt- 13,得136=b× 72 -13,解得 b=57.10.(2019·厦门二模)某种细胞的存活率 y(%)与存放温度 x(℃)之间具有线性相关关系,其样本数据如表所示:
存放温度 x(℃)20 15 10 5 0 -5 -10 存活率 y(%)6 14 26 33 43 60 63 计算得 x- =5,y - =35,i = 17x i y i =-175,i = 17x 2 i =875,并求得回归直线为y^=-2x+45.但实验人员发现表中数据 x=-5 的对应值 y=60 录入有误,更正为 y=53.则更正后的回归直线方程为________. 参考公式:回归方程y^=b^x+a^中斜率和截距的最小二乘估计公式分别为b^=i = 1nx i y i -n x-y-i = 1nx 2 i -n x- 2,a^= y- -b^ x-.答案 y^=-1.9x+43.5 解析 由题意,更正后,x- =5,y - = 17 ×(35×7-60+53)=34,i = 17x i y i =-175+5×60-5×53=-140,i = 17x 2 i =875,∴b^=i = 1nx i y i -n x-y-i = 1nx 2 i -n x- 2= -140-7×5×34875-7×25=-1.9,a^= y- -b^ x- =34-(-1.9)×5=43.5.∴更正后的回归直线方程为y^=-1.9x+43.5.组 能力关 1.变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量 U 与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1 表示变量 Y 与 X 之间的线性相关系数,r 2 表示变量 V 与 U 之间的线性相关系数,则()A.r 2
性别 男 8 12 20 女 8 24 32 总计 16 36 52 表 4 阅读量 性别 丰富 不丰富 总计 男 14 6 20 女 2 30 32 总计 16 36 52 A.成绩 B.视力 C.智商 D.阅读量 答案 D 解析 K 2 1 = 52×6×22-10×14216×36×20×32,令5216×36×20×32 =m,则 K21 =8 2 m,同理,K 2 2 =m×(4×20-12×16)2 =112 2 m,K 2 3 =m×(8×24-8×12)2 =96 2 m,K 2 4 =m×(14×30-6×2)2 =408 2 m,∴K 2 4 >K 2 2 >K 2 3 >K 2 1,则与性别有关联的可能性最大的变量是阅读量.故选 D.3.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的 12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的 23.若有 95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人. P(K 2 ≥k 0)0.050 0.010 0.001 k 0 3.841 6.635 10.828 答案 12 解析 设男生人数为 x,由题意可得列联表如下:
喜欢韩剧 不喜欢韩剧 总计
男生 x6 5x6 x 女生 x3 x6 x2 总计 x2 x 3x2 若有 95%的把握认为是否喜欢韩剧和性别有关,则 k>3.841,即 k=3x2 x6 ·x6 -5x6·x32x·x2 ·x2 ·x= 3x8>3.841,解得 x>10.243.因为 x6,x2 为整数,所以若有 95%的把握认为是否喜欢韩剧和性别有关,则男生至少有 12 人. 4.(2018·全国卷Ⅱ)下图是某地区 2000 年至 2016 年环境基础设施投资额 y(单位:亿元)的折线图.为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回归模型.根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,„,17)建立模型①:y^=-30.4+13.5t;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,2,„,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由. 解(1)利用模型①,该地区 2018 年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元). 利用模型②,该地区 2018 年的环境基础设施投资额的预测值为 y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:
(ⅰ)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型①得到的预测值 226.1 亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了 2 种理由,考生答出其中任意一种或其他合理理由均可)组 素养关 1.某职称晋级评定机构对参加某次专业技术考试的 100 人的成绩进行了统计,绘制了频率分布直方图(如图所示),规定 80 分及以上者晋级成功,否则晋级失败(满分为 100 分).(1)求图中 a 的值;(2)估计该次考试的平均分 x-(同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面的 2×2 列联表,并判断能否有 85%的把握认为“晋级成功”与性别有关. 晋级成功 晋级失败 合计 男 16
女 50 合计 参考公式:
P(K 2 ≥k 0)0.40 0.25 0.15 0.10 0.05 0.025 k 0 0.780 1.323 2.072 2.706 3.841 5.024 K 2 =nad-bc 2a+bc+da+cb+d,其中 n=a+b+c+d.解(1)由频率分布直方图中各小长方形的面积总和为 1,可知(2a+0.020+0.030+0.040)×10=1,故 a=0.005.(2)由频率分布直方图知各小组的区间中点值分别为 55,65,75,85,95,对应的频率分别为 0.05,0.30,0.40,0.20,0.05,故可估计平均数 x- =55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74.(3)由频率分布直方图知,晋级成功的频率为 0.20+0.05=0.25,故晋级成功的人数为 100×0.25=25,故填表如下:
晋级成功 晋级失败 合计 男 16 34 50 女 9 41 50 合计 25 75 100 K 2 = 100×16×41-34×9225×75×50×50≈2.613>2.072,所以有 85%的把握认为“晋级成功”与性别有关. 2.(2019·银川一中模拟)某餐厅通过查阅了最近5 次食品交易会参会人数 x(万人)与餐厅所用原材料数量 y(袋),得到如下统计表:
第一次 第二次 第三次 第四次 第五次 参会人数 x(万人)13 9 8 10 12 原材料 y(袋)32 23 18 24 28(1)根据所给 5 组数据,求出 y 关于 x 的线性回归方程 y=b^x+a^;(2)已 知 购 买 原 材 料 的 费 用 C(元)与 数 量 t(袋)的 关 系 为 C = 400t-20,0 余的原材料只能无偿返还,据悉本次交易大会大约有 15 万人参加.根据(1)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润 L=销售收入-原材料费用)参考公式:b^=i = 1n x i - x- yi - y- i = 1n x i - x- 2=i = 1nx i y i -n x-y-i = 1nx 2 i -n x- 2,a^= y- -b^ x-.参考数据: i = 15x i y i =1343,i = 15x 2 i =558,i = 15y 2 i =3237.解(1)由所给数据,得 x- = 13+9+8+10+125=10.4,y- = 32+23+18+24+285=25,b^=i = 15x i y i -5 x-y-i = 15x 2 i -5 x- 2= 1343-5×10.4×25558-5×10.4 2=2.5,a^= y- -b^ x- =25-2.5×10.4=-1,则 y 关于 x 的线性回归方程为y^=2.5x^ -1.(2)由(1)中求出的线性回归方程知,当 x=15 时,y=36.5,即预计需要原材料36.5 袋,因为 C= 400t-20,0 时,利润 L=700×36.5-380×37=11490.综上所述,餐厅应该购买36袋原材料,才能使利润获得最大,最大利润为11520元. 山东高考数学一轮总复习教学案设计参考-对数与对数函数含答案解析 山东高考数学一轮总复习教学案设计参考-直接证明与间接证明含答案解析
链接地址:https://www.dawendou.com/jiaoxue/jiaoxuesheji/463692.html
版权声明:
1.大文斗范文网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《山东高考数学一轮总复习教学案设计参考-变量间相关关系与统计案例含答案解析》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。
