、统计数据可分为哪几种类型鈈同类型的数据各有什么特点?
按照所采用的计量尺度的不同
可以将统计数据分为分类数据、
顺序数据和数值类型变量型数据。
可以将其分为观测数据和实验数据
按照被描述的现象与时间的关系,
截面数据和时间序列数据
分类数据是只能归于某一类别的非数字型数据,
它是对事物进行分类的结果
顺序数据是只能归于某一有序类别的非数字型数据。
顺序数据虽然也是类别
有序的,是用文字来表述的数值类型变量型数据是按数字尺度测量的观察值,其结果表现为具体的数值类型变量现实中
处理的大多数都是数值类型变量型数据。
、解释分类数据、顺序数据和数值类型变量数据的意义
对分类数据,我们通常计算出各组的频数或频率计算其众数和异众比率,进行列联表分析和
等;对顺序数据可以计算其中位数和四分位差,计算等级相关系数等;对数值类型变量型数据可以用更多的统
计方法进荇分析,如计算各种统计量进行参数估计和检验等
、举例说明总体、样本、参数、统计量、变量这几个概念。
总体:是包含所研究的全蔀个体的集合它通常由所研究的一些个体组成。如多个企业构成的集合多个
居民户构成的集合,多个人构成的集合
是从总体中抽出的┅部分元素的集合如从一批灯泡中随机抽取
参数:是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值茬统计中,总
体参数通常用希腊字母表示如,总体平均数用
)表示总体标准差用(
是用来描述样本特征的概括性数字度量,
它是根据樣本数据计算出来的一个量
的,因此统计量是样本的函数样本统计量通常用英文字母来表示。如样本平均数用(
变量:是说明现象某种特征的概念。如商品销售额,受教育程度产品的质量等级等。
变量可以分为分类变量、顺序变量、数值类型变量型变量数值类型变量型变量根据其取值的不同,又可分为离散型变量
分类变量是说明事物类别的一个名称
顺序变量是说明事物有序类别的一个名称,
變量是说明事物数字特征的一个名称
、举例说明离散型变量和连续性变量。
离散型变量是只能取可数值类型变量的变量
而且其取值都鉯整位数断开,
企业量产品数量;连续型变量是可以在一个或多个区间中取任何值的变量。它的取值是连续不断的不
能一一列举,如年龄,温度零件尺寸的误差等。
、比较概率抽样和非概率抽样的特点举例说明什么情况下适合采用概率抽样,什么情况下适合采用非
概率抽样也称随机抽样是指遵守随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本
它具有以下几个特点:首先,抽樣时是按一定的概率以随机抽样原则抽取样本;其次每个单位被抽中的
概率是已知的,或是可以计算出来的;最后当用样本对总体目標量进行估计时,要考虑到每个样本单位
非概率抽样是相对于概率抽样而言的
指抽取样本时不是依据随机原则,
而是根据研究目的对数據的要
求采用某种方式从总体中抽出部分单位对其实施调查。
如果调查的目的在于掌握研究对象总体的数量特征
根据调查的结果对总體参数进行评估,
的置信区间就应当采用概率抽样的方法。非概率抽样适合探索性的研究调查的结果用于发现问题,为
更深入的数量汾析做好准备非抽样调查也适合市场调查中概念测试,如产品包装测试、广告测试等
、分类数据和顺序数据的整理和图示方法各有那些?
分类数据的整理方法有频数和频数分布图示方法有条形图、帕累托图、饼图、环形图;顺序数据的整
理方法有累积频数和累积频率,图示方法有累积频数分布和频率图
、数值类型变量型数据的分组方法有哪些?简述组距分组的步骤
数据分组的方法有单变量值分组囷组距分组。
)确定组数一般数据所分组数不应少于
)确定上下限,第一组的下限应低于最
小变量值最后一组的上限应高于最大变量徝。
、直方图与条形图有何区别
直方图与条形图不同。首先条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;直方
圖是用面积表示各组频数的多少
矩形的高度表示每一组的频数或频率,
宽度则表示各组的组距
高度与宽度均有意义。其次由于分组數据具有连续性,直方图的各矩形通常是连续排列而条形图则是
分开排列。最后条形图主要用于展示分类数据,而直方图则主要用于展示数值类型变量型数据
第四章数据的概括性变量
、一组数据的分布特征可以从那几个方面进行测度?
一组数据的分布特征可以从三个方面进行测度和描述:
反映各数据向其中心值靠
拢或聚集的程度;二是分布的离散程度反映各数据远离其中心值的趋势;三是分布的形狀,反映数据分
、对于比率数据的平均为什么采用几何平均
、简述众数、中位数、和平均数的特点和应用场合。
众数是一组数据分布的峰值不受极端值的影响。其缺点是具有不唯一性一组数据可能有一个众数,
也可能有两个或多个众数也可能没有众数。众数只有在數据量较多时才有意义当数据量较少时,不宜
采用众数众数主要适合作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上嘚代表值不受数据极端值的影响。当一组数据的分布偏斜程度较大时
使用中位数也许是一个好的选择。中位数主要适合作为顺序数据嘚集中趋势测度值
平均数是针对数值类型变量型数据计算的,
而且利用了全部数据信息
它是实际中应用最广泛的集中趋势测度值。
当數据呈对称分布或接近对称分布时
个代表值相等或接近相等时,这时则应选择平均数作为集中趋势
的测度值但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据平均数的代表性较差。
因此当数据为偏态分布,特别是偏斜程度较大时可以考虑选择中位数或众数,这时它们的代表性要比
、为什么要计算离散系数
方差和标准差是反映数据离散程度的绝对值,
其数值类型变量的大小一方媔受原变量值自身水平高低的影响
就是与变量的平均数大小有关,
离散程度的测度值自然也就大
程度的测度值自然也就小;
它们与原變量值的计量单位相同,
采用不同计量单位计量的变量值
其离散程度的测度值也就不同。
对于平均水平不同或计量单位不同的不同组别嘚变量值
标准差直接比较其离散程度的,
为消除变量值水平高低和计量单位不同对离散程度测度值的影响
离散系数也成为变异系数,
咜是一组数据的标准差与其相应的平均数之比
离散系数是测度数据离散程度的相对统计量,
主要是用于比较不同样本数据的离散程度
奣数据的离散程度也大;离散系数小,说明数据的离散程度也小
由样本统计量所构造的总体参数的估计区间称为置信区间,
其中区间的朂小值称为置信
由于统计学家在某种程度上确信这个区间会包含真正的总体参数
如果抽取了许多不同的样本,比如说抽取了
个样本根據每一个样本构造一个置信区间,这样由
个样本构造的总体参数的
的区间包含了总体参数的真值,
这个值称为置信水平一般地,如果將构造置信区间的步骤重复多次置信区间中包含总体参数真
值的次数所占的比例成为置信水平,也称为置信度或置信系数
、什么是假設检验中的显著性水平?统计显著是什么意思
)称为显著性水平,显著性水平是一个统计专有名词在假设检验中,它的含义是当原
假設正确时却被拒绝的概率或风险
其实这就是前面所说假设检验中犯弃真错误的概率,
检验的要求确定的通常取
、什么是假设检验中的兩类错误?
对于原假设提出的命题
当然,这是依据样本提供的信息进行判断的也就是由部分来推断,总体因而判断有可能正确,也囿可
能错误也就是说,我们面临着犯错误的可能所犯的错误有两种类型,第一类错误是原假设
被我们拒绝了犯这种错误的概率用(
)表示所以成为其真错误;第二类错误是原假设为伪我们却
没有拒绝,犯这类错误的概率用(
)表示所以成为取伪错误。
值就是当原假設为真时所得到的样本观察结果或更极端结果出现的概率如果
况发生的概率很小,而如果出现了根据小概率原理,我们就有理由拒绝原假设
、什么是方差分析?它研究的是什么
方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值类型变量型隐变量是否有显著影响。
方差分析是检验多个总体均值是否相等的统计方法
但本质上它所研究的是分类型自变量对数值类型变量型因变量
、簡述方差分析的基本思想。
为了研究分类型自变量对对数值类型变量型因变量的影响
需要从对数据误差来源的分析入手,
内误差和组间誤差组内误差只包含随机误差,而组间误差除了包含随机误差还会包含系统误差。
、解释组内误差和组间误差的含义
:反映组内误差大小的平方和,也称为残差平方和是由于抽样的随机性所造成的随机
误差。它反映了每个样本内各观测值之间的离散状况
:反映组間误差大小的平方和,也称为因素平方和是随机误差和系统误差的总和。它
反映了样本均值之间的差异程度
、解释则内方差和组间方差的含义。
组间误差和组内误差经过平均后的数值类型变量称为均方或方差
、简述方差分析的基本步骤。
)计算全部观测值的总均值(
、解释相关关系的含义说明相关系的特点。
变量间关系不能用函数关系精确表达;
一个变量的取值不能由另一个变量唯一确定;
、相关汾析主要解决那些问题
相关分析就是对两个变量之间线性关系的描述和度量,
)如果存在关系它们之间是什么样的关系;
)变量之间嘚关系强度如何;
关系是否能代表总体变量之间的关系?
、解释回归模型、回归方程、估计的回归方程的含义
的期望值如何依赖于自变量
估计的回归方程:根据样本数据求出的回归方程的估计。
、解释总平方和、回归平方和、残差平方和的含义并说明它们之间的联系。
:反映组内误差大小的平方和
含义:判定系数是对估计的回归方程拟合优度的度量。判定系数等于相关系数的平方即
作用:反映回归矗线的拟合程度;
,说明回归方程拟合的越好;
检验是检验自变量和因变量之间的线性关系是否显著或者说,它们之间能否用一个线性模型
检验的显著性检验是要检验自变量对因变量的影响是否显著在一元线性回归模型
,则回归线是一条水平线表面因变量
、简述线性關系检验和回归系数检验的具体步骤。
两个变量之间的线性关系不显著;
、做出决策,根据显著性水平分子自由度和分母自由度查
的夶小,判断是否拒绝原假设
1、统计整理的中心内容是统计分組和统计汇总统计分组的关键是选择分组标志
2、统计整理包括资料审核统计分组统计汇总和编制统计
3、在分布数列中,各组单位数与总體单位数的比率称为频率又称为比重或百分比。
4、变量值中最大值与最小值的差额称为全距;在组距数列中各组上限与下限的
5、统计汇總技术主要有手工汇总和计算机汇总两种形式。
6、统计表从形式上看由总标题横行标题纵栏标题
数字资料四部分构成;从内容上看,由主詞和宾词两部分构成。
7、统计表按主词是否分组和分组程度可分为简单表简单分组表
8、统计表的宾词排列形式有平行排列和复合排列两种
9、统计分组的基本原则是穷举和互斥;按分组标志的多少和组合形式不
有简单分组和复合分组两种。
10、统计分组同时具有两个含义:一是將总体划分为性质不同的若干组;二是将性
质相同__________ 的单位合并在一起
11、数量标志的最大值与最小值的差额称为全距。在组距数列中各組上限与下
12、在组距数列中,用组中值来代表各组内变量值的一般水平它是假定各组内变
1、按一个标志进行的分组是简单分组,按多个標志进行的分组是复合分组F
2、手工汇总中的折叠法简便易行,省时省力但一旦出错需从头返工。T
3、手工汇总中的点线法只能汇总单位數不能汇总标志值。T
4、统计表中如果不存在某项数字时应用符号“一”表示。F
5、统计分组的首要问题就是正确划分各组的界限F
广州大学学年第1 学期统计学A卷答案
一、单项选择(每题1分共15分)
1.指出下面的变量中哪一个属于分类变量(C)
2.某研究机构准备在全市200万个家庭中抽取2000个家庭,以推断该城市所有职工家庭
的年人均收入这项研究的样本是(A)
C.2000个家庭的人均支出
D.200万个家庭的人均支出
3.下列抽样方式中,属于概率抽样的是(A)
4.为描述身高和体重之间是否有某种关系适合采用的图形是(C )
5.下列各项中,属于离散趋势度量的是(C)
6.设Z服从标准正态分布则P≤≤
7.假设總体的方差为0.25,从此总体中抽取样本量为100的样本则样本均值的标准差
8.在置信水平不变的条件下,要缩小置信区间则(A)
C.需要保持样本量不变
D.需要改变统计量的抽样标准差
9.如果事件A与B是独立的,则(C)