列联表
频数列联表
频率列联表
独立性
假设X是离散的随机变量$\left\{x_{1}, x_{2}, \ldots, x_{N}\right\}$
假设Y是离散的随机变量$\left\{y_{1}, y_{2}, \ldots, y_{N}\right\}$
如果X和Y是独立的,那么有
并且,如果X和Y独立,那么对于条件概率有:
概率的近似
- 基本概率近似:
- 条件概率近似:
- 独立性的近似:
水平轮廓(row profiles)
对于固定的$x_{i}$和所有的$y_{j}$,我们有
并且有 $f_{j | i}=\frac{n_{i j}}{n_{i+}}$ ,因为$f_{i j}=\frac{n_{i j}}{n}$和$f_{i+}=\frac{n_{i+}}{n}$
假设两个变量是独立的情况下
我们有:
和
例子1:教育和薪水的关系
我们有如下列联表:
和频率表
那么在假设独立的情况下,应该得到如下的表:
我们来计算水平轮廓(row profiles)
$S_{N}$ 云
卡方距离
两行之间的卡方距离表示为:
行和质心的卡方距离:
我们设$S_{N}$是水平轮廓的集合。
那么(total) inertia测量了$S_{N}$到质心的分散程度
当变量是独立的情况,
- 所有行轮廓与平均行轮廓一致
- 云$S_{N}$的惯性为零
两个变量越是相关,行轮廓和质心的距离越大