3.1 独立性检验3.2 独立性检验的基本思想
3.3 独立性检验的应用
必备知识基础练
知识点一2×2列联表
1.如下是一个2×2列联表,则表中m,n的值分别为( )
y x y1 y2 总计
x1 a 35 45
x2 7 b n
总计 m 73 s
A.10,38B.17,45C.10,45D.17,38
2.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年是否体检 人群 每年体检 每年未体检 合计
老年人 a 7 c
年轻人 6 b d
合计 e f 50
已知抽取的老年人、年轻人各25名,则完成上面的列联表数据错误的是( )
A.a=18B.b=19C.c+d=50D.e-f=2
知识点二独立性检验思想
3.对于变量X与Y的统计量χ2,下列说法正确的是( )
A.χ2越大,“X与Y有关联”的可信程度越小
B.χ2越小,“X与Y有关联”的可信程度越小
C.χ2越接近于0,“X与Y没有关联”的可信程度越小
D.χ2越大,“X与Y没有关联”的可信程度越大
4.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到了“打鼾与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的,下列说法中正确的是( )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,那么这个人有99%的概率打鼾
C.在100个心脏病患者中一定有打鼾的人
D.在100个心脏病患者中可能一个打鼾的人都没有
知识点三独立性检验的应用
5.某机构为研究学生玩电脑游戏和对待作业量态度的关系,随机抽取了100名学生进行调查,所得数据如下表所示:
认为作业多 认为作业不多 合计
喜欢玩电脑游戏 25 15 40
不喜欢玩电脑游戏 25 35 60
合计 50 50 100
(参考公式:χ2=)
参照以上公式,得到的正确结论是( )
A.有95%的把握认为喜欢玩电脑游戏与对待作业量的态度有关
B.有95%的把握认为喜欢玩电脑游戏与对待作业量的态度无关
C.有99%的把握认为喜欢玩电脑游戏与对待作业量的态度有关
D.有99%的把握认为喜欢玩电脑游戏与对待作业量的态度无关
6.有两个分类变量x与y,其一组观测值如下表所示:
y1 y2
x1 a 20-a
x2 15-a 30+a
其中a,15-a均为大于5的整数,则当a=________时,有90%的把握认为x与y之间有关系.
7.为了研究患色盲是否与性别有关,随机调查了男性480人,其中有38人患色盲,女性520人,其中有6人患色盲.
(1)根据以上数据建立一个2×2列联表;
(2)判断患色盲是否与性别有关.
关键能力综合练
一、选择题
1.如表是一个2×2列联表,则表中a,b的值分别为( )
y1 y2 合计
x1 a 21 73
x2 22 25 47
合计 b 46 120
A.94,72B.52,50C.52,74D.74,52
2.假设有两个分类变量X和Y,其2×2列联表如下:
Y X y1 y2 合计
x1 a 10 a+10
x2 c 30 c+30
合计 b 46 120
注:χ2==n(-)·(-).对于同一样本,以下数据能说明X和Y关联性最大的一组是( )
A.a=45,c=15B.a=40,c=20
C.a=35,c=25D.a=30,c=30
3.为研究某两个变量是否有关系,根据调查数据计算得到χ2≈15.968,所以断定这两个变量有关系的把握为( )
A.90%B.95%
C.99%D.100%
4.两个变量X和Y,值域分别为{X1,X2}和{Y1,Y2},其样本频数分别是a=10,b=21,c+d=35,若X与Y有关联的可信程度为90%,则c=( )
A.5B.6
C.7D.8
5.某研究所为了检验新开发的疫苗对某疾病的预防作用,对1000名注射了疫苗的人与另外1000名未注射疫苗的人的一年健康记录进行比较,并提出假设:这种疫苗不能起到预防该疾病的作用,并计算出P(χ2≥6.635)≈0.01,则下列说法正确的是( )
A.这种疫苗能起到预防该疾病的作用的有效率为1%
B.若某人未使用该疫苗,则他在半年内有99%的可能性得该疾病
C.有1%的把握认为这种疫苗能起到预防疾病的作用
D.有99%的把握认为这种疫苗能起到预防该疾病的作用
6.[易错题]在对人们的休闲方式的一次调查中,共调查了120人,其中女性65人,男性55人.女性中有40人主要的休闲方式是看电视,另外25人主要的休闲方式是运动;男性中有20人主要的休闲方式是看电视,另外35人主要的休闲方式是运动.则认为性别与休闲方式有关系的把握大约为( )
A.0.1B.0.01
C.0.9D.0.99
二、填空题
7.为了调查患慢性支气管炎是否与吸烟有关,调查了339名50岁以下的人,调查结果如下表:
患慢性支气管炎 未患慢性支气管炎 合计
吸烟 43 162 205
不吸烟 13 121 134
合计 56 283 339
根据列联表数据,求得χ2≈________.(精确到0.001)
8.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如下表:
心脏病 无心脏病 总计
秃发 20 300 320
不秃发 5 450 455
总计 25 750 775
根据表中数据得到χ2=≈15.968.因为χ2>6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性为________.
9.有人发现,多看手机容易使人变近视,下表是一个调查机构对此现象的调查结果:
近视 不近视 合计
少看手机 20 38 58
多看手机 68 42 110
合计 88 80 168
则有________的把握认为多看手机与人变近视有关系.
三、解答题
10.[探究题]某学校课题组为了研究学生的数学成绩与物理成绩之间的关系,随机抽取高二年级20名学生某次考试的成绩(百分制)如下表所示:
序号 1 2 3 4 5 6 7 8 9 10
数学成绩 95 75 80 94 92 65 67 84 98 71
物理成绩 90 63 72 87 91 71 58 82 93 81
序号 11 12 13 14 15 16 17 18 19 20
数学成绩 67 93 64 78 77 90 57 83 72 83
物理成绩 77 82 48 85 69 91 61 84 78 86
若数学成绩90分(含90分)以上为优秀,物理成绩85分(含85分)以上为优秀.
(1)根据上表完成下面的2×2列联表:
数学成绩优秀 数学成绩不优秀 合计
物理成绩优秀
物理成绩不优秀 12
合计 20
(2)根据题(1)中表格的数据计算,有多少的把握认为学生的数学成绩与物理成绩之间有关系?
参考数据公式:独立性检验统计量χ2值的计算公式:
χ2=,其中n=a+b+c+d.
学科素养升级练
1.[多选题]千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了A地区的100天日落和夜晚天气的情况,得到如下2×2列联表:
夜晚天气 日落云里走 下雨 未下雨
出现 25 5
未出现 25 45
并计算得到χ2≈19.05,下列小波对A地区天气判断正确的是( )
A.夜晚下雨的概率约为
B.在未出现“日落云里走”的条件下,夜晚下雨的概率约为
C.有99%的把握认为“日落云里走”是否出现与当晚是否下雨有关
D.出现“日落云里走”,有99%的把握认为夜晚会下雨
2.对于两个变量X,Y,其2×2列联表如下所示.
Y X y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
若两个变量X,Y独立,给出下列结论:
①ad≈bc;
②≈;
③≈;
④≈;
⑤≈0.
其中正确结论的序号是________.
3.[学科素养——数据处理]某高校健康社团为调查本校大学生每周运动的时长,随机选取了80名学生,调查他们每周运动的总时长(单位:时),按照[0,5),[5,10),[10,15),[15,20),[20,25),[25,30]共6组进行统计,得到男生、女生每周运动的时长的统计如下表,规定每周运动15小时以上(含15小时)的称为“运动合格者”,其中每周运动25小时以上(含25小时)的称为“运动达人”.
表1:男生每周运动的时长
时长 [0,5) [5,10) [10,15) [15,20) [20,25) [25,30]
人数 2 8 16 8 4 2
表2:女生每周运动的时长
时长 [0,5) [5,10) [10,15) [15,20) [20,25) [25,30]
人数 0 4 12 12 8 4
(1)从每周运动时长不小于20小时的男生中随机选取2人,求选到“运动达人”的概率;
(2)根据题目条件,完成下面的2×2列联表,并判断能否有99%的把握认为本校大学生是否为“运动合格者”与性别有关.
每周运动的时 长小于15小时 每周运动的时 长不小于15小时 总计
男生
女生
总计
参考公式:χ2=,其中n=a+b+c+d.
3.1 独立性检验
3.2 独立性检验的基本思想
3.3 独立性检验的应用
必备知识基础练
1.解析:由题意,根据2×2列联表可知:a+35=45,解得a=10,则m=a+7=10+7=17,又由35+b=73,解得b=38,则n=7+38=45,故选B.
答案:B
2.解析:因为a+7=c=25,6+b=d=25,a+6=e,7+b=f,e+f=50,所以a=18,b=19,c+d=50,e=24,f=26,e-f=-2,故选D.
答案:D
3.解析:对于分类变量X与Y的统计量χ2,χ2越大,“X与Y有关联”的可信程度越大;χ2越小,“X与Y有关联”的可信程度越小,所以选项B正确.故选B.
答案:B
4.解析:有99%以上的把握认为“打鼾与患心脏病有关”的结论成立,与多少个人打鼾没有关系,只有D选项正确,故选D.
答案:D
5.解析:由题意得χ2=≈4.17>3.841,故有95%的把握认为喜欢玩电脑游戏与对待作业量的态度有关.故选A.
答案:A
6.解析:由题意,可知要有90%的把握认为x与y之间有关系,则χ2>2.706,
则χ2=
==>2.706.
因为a>5且15-a>5,a∈Z,所以a=6,7,8,9.
代入不等式验证可知8,9均满足要求,
故当a为8或9时,有90%的把握认为x与y之间有关系.
答案:8或9
7.解析:(1)建立的2×2列联表如下表所示:
患色盲 未患色盲 总计
男 38 442 480
女 6 514 520
总计 44 956 1000
(2)χ2=≈27.139,
因为27.139>6.635,所以有99%的把握认为患色盲与性别有关.
关键能力综合练
1.解析:a=73-21=52,b=a+22=52+22=74.故选C.
答案:C
2.解析:对于A选项,χ2=100×(-)(-)=≈24.24;对于B选项,χ2=100×(-)(-)=≈16.7;对于C选项,χ2=100×(-)(-)=≈10.77;对于D选项,χ2=100×(-)(-)==6.25.由于A中的χ2最大,故可以判断出,X和Y关联性最大.故选A.
答案:A
3.解析:因为χ2≈15.968>6.635,所以断定这两个变量有关联的把握为99%.故选C.
答案:C
4.解析:列2×2列联表可知:
X Y X1 X2 合计
Y1 10 21 31
Y2 c d 35
合计 10+c 21+d 66
当c=5时,d=30,此时χ2=≈3.024>2.706,所以c=5时,X与Y有关联的可信程度为90%,而其余的值皆不满足,故选A.
答案:A
5.解析:由P(χ2≥6.635)≈0.01,可知D正确.
答案:D
6.解析:根据所给的数据得到2×2列联表,如下:
男 女 合计
看电视 20 40 60
运动 35 25 60
合计 55 65 120
计算χ2=≈7.552>6.635,所以有99%的把握认为性别与休闲方式有关系.故选D.
答案:D
7.解析:χ2=≈7.469.
答案:7.469
8.解析:由已知χ2>6.635,可知有99%的把握断定秃发与心脏病有关系,且这种判断出错的可能性为0.01.
答案:0.01
9.解析:由题意题中数据可得,
χ2==≈11.377>6.635,
所以有99%的把握认为多看手机与人变近视有关系.
答案:99%
10.解析:(1)列联表为
数学成绩优秀 数学成绩不优秀 合计
物理成绩优秀 5 2 7
物理成绩不优秀 1 12 13
合计 6 14 20
(2)根据上述列联表可以求得χ2=≈8.802>6.635,所以我们有99%的把握认为学生的数学成绩与物理成绩之间有关系.
学科素养升级练
1.解析:对于选项A,因为夜晚下雨的天数一共有25+25=50(天),所以夜晚下雨的概率约为=,故A正确.对于选项B,未出现“日落云里走”夜晚下雨的有25天,未出现“日落云里走”的一共有25+45=70(天),所以在未出现“日落云里走”的条件下,夜晚下雨的概率约为=,故B正确.对于选项C,因为χ2≈19.05>6.635,所以有99%的把握认为“日落云里走”是否出现与当晚是否下雨有关,故C正确,D错误.故选ABC.
答案:ABC
2.解析:因为变量X,Y独立,所以≈×,化简得ad≈bc,故①⑤正确;②式化简得ad≈bc,故②正确;③④显然不正确.故填①②⑤.
答案:①②⑤
3.解析:(1)每周运动的时长在[20,25)中的男生有4人,在[25,30]中的男生有2人,从这6名男生中随机选取2人,共有C=15个基本事件,其中[25,30]中至少有1人被选到的可能结果有C·C+C=9(个),所以选到“运动达人”的概率为=.
(2)每周运动的时长小于15小时的男生有26人,女生有16人;
每周运动的时长不小于15小时的男生有14人,女生有24人.
可得下列2×2列联表:
每周运动的时长 小于15小时 每周运动的时长 不小于15小时 总计
男生 26 14 40
女生 16 24 40
总计 42 38 80
χ2=≈5.013<6.635,
所以没有99%的把握认为本校大学生是否为“运动合格者”与性别有关.2.1 相关系数2.2 成对数据的线性相关性分析
必备知识基础练
知识点一相关系数及其应用
1.两个变量y与x的回归模型中,分别计算了4组数据的相关系数r(如下表所示),其中拟合效果最好的是( )
组别 第一组 第二组 第三组 第四组
相关系数r -0.98 0.80 0.50 -0.25
A.第一组B.第二组
C.第三组D.第四组
2.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2
月份 1 2 3 4 5 6 7 8
促销费用x/万元 2 3 6 10 13 21 15 18
产品销量y/万件 1 1 2 3 3.5 5 4 4.5
(1)根据表中数据画出散点图,选取合适的函数模型,并用相关系数r加以说明(精确到0.01);
(2)建立y关于x的回归方程(系数精确到0.01),如果该公司计划在2020年9月份实现产品销量超6万件,预测至少需要投入促销费用多少万元(结果精确到0.01).
其中xi,yi分别为第i个月的促销费用和产品销量,i=1,2,3,…,8.
知识点二成对数据的线性相关性
4.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计两科成绩得到如图所示的散点图(两坐标轴单位长度相同),用回归直线y=bx+a近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,b的值为3.25
B.线性相关关系较强,b的值为0.83
C.线性相关关系较强,b的值为-0.87
D.线性相关关系太弱,无研究价值
5.如图是我国2010年至2016年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2010~2016.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请求出相关系数r,并用相关系数的大小说明y与t相关性的强弱;
(2)建立y关于t的回归方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量.
回归直线y=a+bt中斜率和截距的最小二乘估计公式分别为
关键能力综合练
一、选择题
1.在判断两个变量y与x是否相关时,选择了4个不同的模型,模型1的相关系数为0.98,模型2的相关系数为0.80,模型3的相关系数为0.50,模型4的相关系数为0.25.其中拟合效果最好的模型是( )
A.模型1B.模型2
C.模型3D.模型4
2.相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归直线方程y=x+,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程:y=x+,相关系数为r2,则( )
A.0
A.①②⑤③④B.③②④⑤①
C.②④③①⑤D.②⑤④③①
4.下列命题中:
①线性回归方程y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点;
②在回归分析中,相关系数为0.80的模型比相关系数为0.98的模型的拟合效果要好;
③在回归方程y=0.5x-8中,变量x=2时,变量y的值一定是-7.
其中假命题的个数是( )
A.1B.2
C.3D.0
5.下图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )
A.DB.EC.FD.A
6.某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到散点图如图所示.
由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bxB.y=a+bx2
C.y=a+bexD.y=a+blnx
二、填空题
7.如果散点图中的所有样本点都落在一条斜率为非零实数的直线上,r是相关系数,则r=________.
8.对某高三学生在连续多次数学测试中的成绩(单位:分)进行统计得到如下散点图.下面关于这位同学的数学成绩的分析中,正确命题的序号是________.
①该同学的数学成绩总的趋势是在逐步提高;
②该同学在这连续九次数学测试中的成绩的最高分与最低分的差超过40分;
③该同学的数学成绩与测试次数具有线性相关性,且相关系数0
三、解答题
10.我国大力发展校园足球,为了解某地区足球特色学校的发展状况,社会调查小组得到如下统计数据:
年份x 2014 2015 2016 2017 2018
足球特色学校y(百个) 0.30 0.60 1.00 1.40 1.70
(1)根据上表数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱;
(已知:0.75≤|r|≤1,则认为y与x的线性相关性很强;0.3≤|r|<0.75,则认为y与x的线性相关性一般;|r|≤0.25,则认为y与x的线性相关性较弱)
(2)求y关于x的线性回归方程,并预测该地区2020年足球特色学校的个数(精确到个).
参考公式和数据:
r=,(xi-)2=10,(yi-)2=1.3,≈3.6056,=,=-.
学科素养升级练
1.[多选题]下列关于相关系数r的说法正确的是( )
A.相关系数r越大两个变量间线性相关性越强
B.相关系数r的取值范围为[-1,1]
C.相关系数r>0时两个变量正相关,r<0时两个变量负相关
D.相关系数r=1时,样本点在同一直线上
2.设(x1,y1),(x2,y2),…,(x2019,y2019)是变量x和y的2019个样本点,直线l是由这些样本点通过最小二乘法得到的回归直线(如图),则以下结论中一定正确的是________(填序号).
①直线l过点(,);
②x和y的线性相关系数为直线l的斜率;
③直线l过点(x1010,y1010);
④x和y的线性相关系数在0到1;
⑤因为2019为奇数,所以分布在l两侧的样本点的个数一定不相同.
3.[学科素养——数据处理]已知某地区某种昆虫产卵数和温度有关.现收集了一只该品种昆虫的产卵数y(个)和温度x(℃)的7组观测数据,其散点图如图所示:
根据散点图,结合函数知识,可以发现产卵数y和温度x可用方程y=ebx+a来拟合,令z=lny,结合样本数据可知z与温度x可用线性回归方程来拟合.根据收集到的数据,计算得到如下值:
(1)求z和温度x的回归方程(回归系数结果精确到0.001).
(2)求产卵数y关于温度x的回归方程;若该地区一段时间内的气温在26~36℃(包括26℃与36℃),估计该品种一只昆虫的产卵数的范围.(参考数据:e3.282≈27,e3.792≈44,e5.832≈341,e6.087≈440,e6.342≈568)
附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn),其回归方程=+ω的斜率和截距的最小二乘估计分别为=,=-.
2.1 相关系数
2.2 成对数据的线性相关性分析
必备知识基础练
1.解析:线性相关系数的绝对值|r|越接近1,线性相关程度越强,所以拟合效果最好的是第一组.
答案:A
2.解析:对于变量X与Y而言,Y随着X的增大而增大,故变量Y与X正相关,即r1>0;对于变量U与V而言,V随着U的增大而减小,故变量V与U负相关,即r2<0.故r2<0
3.解析:(1)根据表中的数据绘制散点图如图,
从散点图可以看出这些点大致分布在一条直线附近,所以可用线性回归模型y=bx+a拟合y与x的关系.
由题意知,=×(2+3+6+10+13+21+15+18)=11,
=×(1+1+2+3+3.5+5+4+4.5)=3,
所以相关系数r==≈0.99,
由相关系数的值接近于1,说明变量y与x的线性相关性很强.
(2)由(1)知,可用线性回归方程y=bx+a建立y与x的关系,
易知b==≈0.22,
a=-b=3-0.22×11=0.58,
所以y关于x的线性回归方程为y=0.22x+0.58.
令0.22x+0.58≥6,解得x≥24.64.
即实现产品销量超6万件,预测至少需要投入促销费用24.64万元.
4.解析:由散点图可知,点的分布集中在某个带状区域内,所以语文成绩和英语成绩之间具有正的线性相关关系,且线性相关关系较强,又绝大部分的点都在直线y=x的下方,所以回归直线的斜率大于0且小于1,所以结论最有可能成立的是B,故选B.
答案:B
5.解析:(1)由折线图中数据和参考数据得=4,(ti-)2=28,=0.664,(ti-)(yi-)=iyi-i=47.36-4×10.97=3.48,∴r≈≈0.99.∵y与t的相关系数近似为0.99,∴y与t的线性相关程度比较高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.567及(1)得b==≈0.124,
∴a=-b≈1.567-0.124×4≈1.07.
所以y关于t的回归方程为y=1.07+0.12t.
将2018年对应的t=9代入回归方程得y=1.07+0.12×9=2.15.
所以2018年我国生活垃圾无害化处理量约为2.15亿吨.
关键能力综合练
1.解析:相关系数r的绝对值越大,则拟合效果越好,结合题意可知,模型1的拟合效果最好.故选A.
答案:A
2.解析:由散点图得这两个变量呈负相关,所以r1,r2<0.因为剔除点(10,21)后,剩下的数据更具有线性相关性,所以|r2|更接近1,所以-1
3.解析:进行线性回归分析一般经历以下几个过程:首先对相关数据进行收集,再根据收集的数据作出散点图,根据散点图做出线性相关或非线性相关或不相关的判断,然后进行相关系数计算,以确定相关程度大小,这样可以提高回归分析的可信度,最后求出回归方程并结合方程进行实际意义说明.故选D.
答案:D
4.解析:对于①,回归方程直线不一定经过其样本数据点,但一定经过(,),所以①不正确;对于②,用相关系数r的绝对值判断模型的拟合效果,|r|越大,模型的拟合效果越好,所以②不正确;对于③,在回归方程y=0.5x-8中,变量x=2时,y=-7,但实际值可能不是-7,所以③不正确.故选C.
答案:C
5.解析:由相关关系的两个变量的一组数据的散点图和回归直线可知,散点越靠近直线,对应的数据的相关系数越大,故应该去掉最远点E.
答案:B
6.解析:由散点图可以看出,随着温度x的增加,发芽率y增加到一定程度后,变化率越来越小,符合对数型函数的图象特征.
答案:D
7.解析:当散点图中的所有点都落在一条斜率为非零实数的直线上时,变量间的相关性最强,|r|=1,所以r=±1.
答案:±1
8.解析:根据散点图可知该同学的数学成绩与测试次数具有正相关关系,所以①③均正确;第一次的成绩在90分以下,第九次的成绩在130分以上,所以②正确.
答案:①②③
9.解析:当x=6时,z∧=-1+ln300=ln,所以y=ez∧=.
答案:
10.解析:(1)由题得=×(2014+2015+2016+2017+2018)=2016,
=×(0.30+0.60+1.00+1.40+1.70)=1,
∴r==≈≈0.998>0.75.
∴y与x的线性相关性很强.
(2)设y关于x的线性回归方程为=+x,
===0.36,
=-b∧=1-0.36×2016=-724.76,
∴y关于x的线性回归方程是=0.36x-724.76.
当x=2020时,=0.36×2020-724.76=2.44,预测该地区2020年足球特色学校有244个.
学科素养升级练
1.解析:对于相关系数r,有以下结论:①当r>0时,两个变量正相关,当r<0时,两个变量负相关;②r的绝对值越接近于1,两个变量的线性相关性越强,r的绝对值越接近于0,两个变量的线性相关性越低.所以A说法不正确,C说法正确,B,D说法正确.故选BCD.
答案:BCD
2.解析:根据回归直线一定经过样本点的中心,而不一定经过样本点,可知①正确,③错误.因为线性相关系数是表示两个变量之间线性相关程度的一个值,并非回归方程的系数b,所以②错误.由题图,可知x和y的线性相关系数在-1到0之间,④错误.不能因为2019为奇数,就断定分布在l两侧的样本点的个数一定不相同,⑤错误.
答案:①
3.解析:(1)因为z与温度x可以用线性回归方程来拟合,
故可设=+x,则==≈0.255,
所以=-=3.537-0.255×27=-3.348.
故z关于x的线性回归方程为=0.255x-3.348.
(2)由(1)可得lny=0.255x-3.348,
所以产卵数y关于温度x的回归方程为=e0.255x-3.348.
当x=26时,=e0.255×26-3.348=e3.282≈27;
当x=36时,=e0.255×36-3.348=e5.832≈341.
因为函数y=e0.255x-3.348为增函数,所以气温在26~36℃时,估计该品种一只昆虫的产卵数的范围是[27,341]内的正整数.1.1 直线拟合1.2 一元线性回归方程
必备知识基础练
知识点一直线拟合
1.下表提供了某厂利用节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
x 3 4 5 6
y 2.5 3 4 4.5
(1)画出表中数据的散点图;
(2)从散点图中可以看出,甲产品的产量和相应的生产能耗近似呈什么关系?
(3)如果甲产品的产量为7吨,预测相应的生产能耗的吨数.
知识点二一元线性回归方程
2.[多选题]已知一组样本点(xi,yi),其中i=1,2,3,…,30,根据最小二乘法求得的回归方程是y=bx+a,则下列说法正确的是( )
A.回归方程y=bx+a经过点(,)
B.至少有一个样本点落在回归直线y=bx+a上
C.对所有的xi(i=1,2,3,…,30),预报变量bxi+a的值一定与yi有误差
D.若y=bx+a的斜率b>0,则变量x与y正相关
3.已知变量x,y之间的一组数据如下表所示:
x 5 6 7 8
y 4 5 5.4 a
若根据表中数据得出y关于x的线性回归方程为y=0.26+0.76x,则表中a的值为________.
4.为助力新冠肺炎疫情后的经济复苏,某电商平台为某工厂的产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到的数据如下表所示.
单价x/元 8 8.2 8.4 8.6 8.8 9
销量y/万件 90 84 83 80 75 68
(1)根据以上数据,求y关于x的线性回归方程;
(2)若该产品成本是4元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润?
关键能力综合练
一、选择题
1.在“新零售”模式的背景下,自由职业越来越流行,诸如淘宝店主、微商等等.现调研某行业自由职业者的收入情况,对该行业10个自由职业者人均年收入y(单位:万元)与平均每天的工作时间x(单位:时)进行调查统计,得出y与x具有线性相关关系,且线性回归方程为y=1.2x+6,若该行业自由职业者平均每天工作的时间为5小时,估计该自由职业者年收入为( )
A.5万元B.6万元
C.12万元D.7.2万元
2.下表显示出样本中y随x变化的一组数据,由此判断它最可能是( )
x 4 5 6 7 8 9 10
y 14 18 19 20 23 25 28
A.线性函数模型B.二次函数模型
C.指数函数模型D.对数函数模型
3.为了规定工时定额,需要确定加工某种零件所需的时间,为此进行了5次试验,得到5组数据:(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),由最小二乘法求得回归方程为y=0.67x+54.9.若已知x1+x2+x3+x4+x5=150,则y1+y2+y3+y4+y5=( )
A.75B.155.4
C.375D.466.2
4.某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1000个,根据各年龄段平均身高作出如图所示的散点图和回归直线L.根据图中数据,下列选项中对该样本描述错误的是( )
A.据样本数据估计,该地区青少年的身高与年龄成正相关
B.所抽取数据中,5000名青少年的平均身高约为145cm
C.直线L的斜率的值近似等于样本中青少年平均身高每年的增量
D.从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线L上
5.已知变量x与y负相关,且由观测数据算得样本平均数=4,=5.6,则由该观测的数据算得的线性回归方程可能是( )
A.y=0.4x+4B.y=1.2x+0.7
C.y=-0.6x+8D.y=-0.7x+8.2
6.[易错题]某公司过去五个月的广告费支出x(单位:万元)与销售额y(单位:万元)之间有下列对应数据:
x 2 4 5 6 8
y ▲ 40 60 50 70
工作人员不慎将表格中y的第一个数据丢失.已知y与x具有线性相关关系,且回归方程为y=6.5x+17.5,则下列说法:①销售额y与广告费支出x正相关;②丢失的数据(表中▲处)为30;③该公司广告费支出每增加1万元,销售额一定增加6.5万元;④若该公司下月广告费投入7万元,则销售额估计为60万元.其中,正确说法有( )
A.1个B.2个
C.3个D.4个
二、填空题
7.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y∧=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
8.千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计:
年份(届) 2017 2018 2019 2020
学科竞赛获省级一等奖 及以上的学生人数x 51 49 55 57
被清华、北大等世界名校 录取的学生人数y 103 96 108 107
根据上表可得回归方程=x+中的为1.35,该校2021届同学在学科竞赛中获省级一等奖及以上的学生人数为63,据此模型预测该校2021年被清华、北大等世界名校录取的学生人数为________.
9.[探究题]复旦大学附属中山医院的呼吸科主任宋元林教授团队与上海市第一批援鄂医疗队和武汉市金银潭医院合作,发布了一项对新冠肺炎的研究成果,此项研究首次揭示COVID 19患者发生急性呼吸窘迫综合征(ARDS)和从ARDS进展至死亡的危险因素,并首次提出已发生ARDS的COVID 19患者使用甲强龙可能获益的观点.为了了解甲强龙的指标数据y与质量分数p(单位:%)之间的关系,随机统计了相关数据,并制作了下表.
质量分数p 6 10 14 18 22
指标数据y 62 m 44 28 14
由表中数据求得线性回归方程为y=-3p+82.2,则m=________.
三、解答题
10.记录某产品的单价x(元)与销售量y(件)的数据如下表所示:
x 6 7 8 9 10
y 55 48 44 38 25
(1)已知y与x具有线性相关关系,求出y关于x的线性回归方程;
(2)预测当单价为12元时,该产品的销售量.
学科素养升级练
1.[多选题]某厂节能降耗改造后在生产A产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨)的几组对应数据如下表所示,根据表中提供的数据,求出y关于x的线性回归方程为y=0.7x+0.35,则下列结论中正确的是( )
x 3 4 5 6
y 2.5 t 4 4.5
A.线性回归直线一定过点(4.5,3.5)
B.产品的生产能耗与产量正相关
C.t的取值必定是3.15
D.A产品每多生产1吨,则相应的生产能耗增加0.7吨
2.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y=bx+a,已知
该班某学生的脚长为24,据此估计其身高为________.
3.[学科素养——数据处理]一根弹簧的长度y(单位:厘米)在不同拉力x(单位:牛顿)的作用下的数据如下表:
x/牛顿 5 10 15 20 25 30
y/厘米 7.25 8.12 8.95 9.90 10.90 11.80
(1)作出散点图,并求出该弹簧长度y对拉力x的线性回归方程;
(2)预测拉力为18牛顿时弹簧的长度.
1.1 直线拟合
1.2 一元线性回归方程
必备知识基础练
1.解析:(1)由题中所给数据,可得散点图如图所示.
(2)从散点图可以发现甲产品的产量和相应的生产能耗近似呈线性关系.
(3)甲产品的产量为7吨时,相应的生产能耗大约为5吨.
2.解析:回归直线方程y=bx+a经过样本中心点(,),故A正确;样本点可能都不在回归直线上,故B错误;样本点可能在直线y=bx+a上,即可以存在xi对应的预报变量bxi+a与yi没有误差,故C错误;若y=bx+a的斜率b>0,则样本点的分布从左至右上升,变量x与y正相关,故D正确.故选AD.
答案:AD
3.解析:由题意,可知=(5+6+7+8)=6.5.由回归直线过样本点的中心(,),得=0.26+0.76=0.26+0.76×6.5=5.2.由=(4+5+5.4+a)=5.2,解得a=6.4.
答案:6.4
4.解析:
(1)==8.5,==80.
==-20,a=-b=80+20×8.5=250.
∴y关于x的线性回归方程为y=-20x+250.
(2)设工厂获得的利润为L万元.
则L=(x-4)(-20x+250)=-20(x-8.25)2+361.25.
∴预测把单价定为8.25元时,工厂获得最大利润,最大利润为361.25万元.
关键能力综合练
1.解析:已知线性回归方程为y=1.2x+6,令x=5,得y=1.2×5+6=12(万元).∴估计该自由职业者年收入为12万元.
答案:C
2.解析:画出散点图(图略),可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.
答案:A
3.解析:由题意,可得==30,代入回归方程中,可得=0.67×30+54.9=75,所以y1+y2+y3+y4+y5=5×=375,故选C.
答案:C
4.解析:在给定范围内,随着年龄的增加,年龄越大身高越高,故该地区青少年的身高与年龄成正相关,故A正确;用样本数据估计总体可得平均数大约是145cm,故B正确;根据直线斜率的意义可知斜率的值近似等于样本中青少年平均身高每年的增量,故C正确;各取一人具有随机性,根据数据做出的点可能在直线附近,不一定在直线上,故D错误.故选D.
答案:D
5.解析:因为变量x与y负相关,所以b<0,排除A、B选项;将=4,=5.6代入检验即可得到C是正确选项,故选C.
答案:C
6.解析:由回归方程为y=6.5x+17.5,可知b=6.5,则销售额y与广告费支出x正相关,所以①是正确的;设丢失的数据为a,由表中的数据可得=5,=,把点(5,)代入回归方程,可得=6.5×5+17.5,解得a=30,所以②是正确的;该公司广告费支出每增加1万元,销售额应平均增加6.5万元,所以③不正确;若该公司下月广告费投入7万元,则销售额估计为y=6.5×7+17.5=63万元,所以④不正确,故选B.
答案:B
7.解析:由题意知,[0.254(x+1)+0.321]-(0.254x+0.321)=0.254.
答案:0.254
8.解析:因为=53,=103.5,所以a∧=-b∧=103.5-1.35×53=31.95,所以回归直线方程为y∧=1.35x+31.95.当x=63时,代入解得y∧=117.
答案:117
9.解析:由题意可得,==14,
==,
因为回归直线过点(,),所以=-3×14+82.2,解得m=53.
答案:53
10.解析:(1)由题意,得=(6+7+8+9+10)=8,
=(55+48+44+38+25)=42,
∴b==-7,a=42-(-7)×8=98,
∴y关于x的线性回归方程为y=-7x+98.
(2)当x=12时,y=-7×12+98=14,
即当单价为12元时,该产品的销售量约为14件.
学科素养升级练
1.解析:=×(3+4+5+6)=4.5,则=0.7×4.5+0.35=3.5,所以回归直线一定过点(4.5,3.5),故A正确;因为0.7>0,所以产品的生产能耗与产量正相关,故B正确;因为=×(2.5+t+4+4.5)=3.5,所以t=3,故C错误;A产品每多生产1吨,则相应的生产能耗增加约0.7吨,故D正确.
答案:ABD
2.解析:由题意可知y=4x+a,=22.5,=160,因为回归直线一定经过样本点的中心(,),所以160=22.5×4+a,所以a=70,因此y=4x+70.当x=24时,y=4×24+70=96+70=166.
答案:166
3.解析:(1)作出散点图,如图所示.
由散点图可以看出,两个变量具有较强的线性相关关系,可以建立弹簧长度y对拉力x的线性回归方程.
将已知数据列成下表:
i xi yi x xiyi
1 5 7.25 25 36.25
2 10 8.12 100 81.20
3 15 8.95 225 134.25
4 20 9.90 400 198.00
5 25 10.90 625 272.50
6 30 11.80 900 354.00
∑ 105 56.92 2275 1076.20
由此可得==17.50,=≈9.49,进而可求得
b=≈0.18,
a=9.49-0.18×17.50=6.34.
于是,y对x的线性回归方程为y=6.34+0.18x.
(2)由线性回归方程可知当拉力为18牛顿时,弹簧长度的估计值为6.34+0.18×18=9.58(厘米).
转载请注明出处卷子答案网-一个不只有答案的网站 » 北师大版选择性必修第一册高中数学第七章 统计案例 课时作业(含解析3份打包)