Xiaopei's DokuWiki

These are the good times in your life,
so put on a smile and it'll be alright

User Tools

Site Tools


it:statistics

统计学

  1. 用 “例题 + 概念名” 的方法整理此篇笔记
  2. 在需要做类似的统计时, 先找到 名字, 再按名字查资料 (如 R 文档)

用途

抽样分布和参数估计

抽样推断在数学理论上基于大数定律1)和中心极限定理2)

参数估计是指:

  • 已知样本:
    1. 计算样本的平均数和方差
    2. 根据样本计算结果, 在某一置信度下, 计算总体的置信区间 (区间估计)
  • 已知总体的期望和估计要求:
    1. 计算需要抽取的样本数

假设检验和方差分析

假设检验

例题: 假定食盐的分袋包装生产线的装袋重量服从正态分布,生产线按每袋净重500克的技术标准控制操作。现从生产线随机抽取100袋,测得平均重量为498克,样本标准差为2.6克。问该生产线的袋装净重的期望值是否为500克 (即生产线是否处于可控状态)?

样本平均数不等于总体平均数有两个原因:

  1. 随机因素, 抽样的问题
  2. 系统性因素, 总体本来就不符合期望

假设检验 (只) 能够回答 “我们能拿出何种程度的证据来否定 '观测到的差异属于随机变异' 这种可能”. 当原假设未被拒绝时, 并不能认为原假设确实成立. 对立假设通常才是研究者最想知道的.

需要假设检验验证, 假设检验过程如下:

  1. 提出假设
    1. 原假设 (零假设)
    2. 备择假设 (对立假设)
  2. 构造适当的检验统计量, 并根据样本计算统计量的具体数值
    1. Z 统计量
    2. t 统计量
  3. 规定显著性水平, 建立检验规则 (单侧检测, 双侧检测)
    1. P-值规则
    2. 临界值规则
  4. 作出判断
    1. 查表

方差分析

单因子方差分析: 四种饲料喂小鸡, 增重水平是否有明显区别

双因子方差分析: 因子A 对变量是否有显著影响, 因子B 对变量是否有显著影响, 因子A和B交互作用 对变量是否有显著影响

相关与回归分析

客观现象存在 确定性的函数关系 和 非确定性的相关关系 两种.

相关分为:

  1. 完全相关, 不完全相关 和 不相干
  2. 线性相关 和 非线性相关
  3. 单相关, 复相关和偏相关

使用统计软件的步骤一般为:

  1. 绘制散点图
  2. 计算和检验相关系数
    1. t-检验 (t 与 t a/2 比较)
  3. 当存在显著的相关关系时, 可进一步做回归分析
  4. 根据回归结果, 利用矩阵计算函数进行点预测和区间预测

非参数检验

符号 (+-0) 检验与符秩检验 (威尔科克森符号秩检验)

Wilcoxon_signed-rank_test

已知广告前后销量, 求广告是否扩大了销量. (已知显著水平 0.05)

皮尔逊卡方检验

已知随机抽查数据, 求是否符合正态分布

等级相关检验 斯皮尔曼等级相关系数

已知 n 个人的围棋排名和象棋排名, 求围棋水平和象棋水平的相关性

时间序列分析

FIXME

对比分析与指数分析

FIXME

概论

统计研究的基本环节

  1. 统计设计
    1. 结合 统计学理论相关实质性学科理论
    2. 制定 统计指标, 指标体系 和 统计分类
    3. 提出 收集, 整理 和 分析 数据的方案和工作进度
  2. 收集数据
    1. 可用 统计调查 AND/OR 实验法
  3. 整理分析
    1. 先是 描述统计: 对样本数据登记, 审核, 整理, 归类, 计算样本指标, 表示信息
    2. 再在描述的基础上 推断统计, 根据样本估计或检验总体的数量特征
  4. 开发应用
    1. 统计方法与统计资料
    2. 相关实质性学科理论

统计学的基本概念

  1. 总体: 研究的全体, 具有 同质性 和 大量性 (总体单位)
  2. 样本: 总体的部分单位组成的集合 (样本容量)
  3. 标志: 总体各单位普遍具有的属性或特征, 分为 品质标志 和 数量标志
  4. 统计指标: 反映统计总体数量特征的概念和数值
  5. 变量和变量值:
    1. 按计量尺度
      1. 连续型&离散型
      2. 定类尺度, 定序尺度, 定距尺度 (+-), 定比尺度 (*/)
    2. 按类型
      1. 横截面
      2. 时间序列

数据整理

  1. 审核
  2. 分组和汇总
  3. 表现 (制表/制图)

分组

  1. 类型
    1. 简单分组 (一个标志) / 复合分组 (多个标志, 在第一个标志分组基础上, 再按第二标志分, 如软件工程师再分为前端/后端)
    2. 品质分组 / 数量分组 (确定组数和组距: Sturges)
  2. 原则
    1. 穷尽原则 & 互斥原则
  3. 频数, 频率, 累计频数, 累计频率

分布特征的描述

  1. 集中趋势的测定
    1. 平均数 mean
      1. 算数平均数 - 最普通 (调和平均数可看为是算数平均数的特殊情况)
      2. 几何平均数 - 用在各变量值存在乘积关系的场合 (如 1. 环比; 2. 通过 连续工序的合格率 → 求 产品平均合格率)
    2. 众数 mode
    3. 中位数 median
  2. 离散程度的测定
    1. 极差
    2. 四分位差
    3. 平均差 (不用)
    4. 方差
    5. 标准差 (对称钟型分布: 68% 均值左右 1 个标准差, 95% ~ 2 个, 99% ~ 3 个)
    6. 离散系数
    7. 异众比率
  3. 偏度和峰度
    1. 矩 ??
    2. 偏度 (左偏, 右偏)
    3. 峰度 (尖顶, 正态, 平顶)

几种常用的概率分布

伯努利试验(Bernoulli trial)是只有两种可能结果的单次随机试验

  • 离散型
    1. 两点分布: 一次伯努利试验
    2. 二项分布: n 次伯努利试验 (抽取, 放回)
    3. 超几何分布: (抽取, 不放回)
  • 连续型
    1. 正态分布
    2. X^2-分布 (卡方分布): k个独立的标准正态分布变量 的 平方和 构成的随机变量 所遵循的分布规律
    3. F-分布: 两个相互独立的 X^2 变量相除构成的随机变量 所遵循的分布规律
    4. t-分布: 类似正态分布 (在自由度 (n - 1) >= 30 时, 可用标准正态分布来近似)
1)
意指数量越多,则其平均就越趋近期望值
2)
大量相互独立的随机变量,其均值的分布以正态分布为极限
it/statistics.txt · Last modified: 2014/09/10 19:21 by admin