2020-数据科学基础-03-概率分布
1. 数据分布与概率分布
1.1. 频数分布与频率分布
- 频数是各个数据被观测到的次数。
- 频率是频数除以总次数。
1.2. 累积频数与累积频率
- 数据排序后(通常是降序)进行频数或者频率的累加。
1.3. 概率分布
- 我们需要从特定数据到一般规律的抽象,才能奠定数据科学的基础。
1.3.1. 随机变量
- 例子:随机变量X,Y,Z
- X更加符合需求
- Summary:
1.3.2. 分布函数
- 对任意的X进行概率的累加,即从负无穷到X累加构建的一个函数成为随机变量X的分布函数
- 分布函数一定是左连续的,但是概率密度函数不一定
1.4. 随机变量
- 为了进一步研究概率分布,我们对于随机变量进行深入研究分析。
1.4.1. 离散型随机变量(离散随机变量)
- 一个随机变量 X 的可能取值为有限个或可列无穷多个, 则称X为离散型随机变量。
- 概率分布律
- 之前的抛硬币问题的例子
1.4.2. 连续型随机变量
- 例子:一个靶子是半径为2米的圆盘,设击中靶上任意同心圆盘上的点的概率与该圆盘的面积成正比,并设射击都能击中靶, 以X表示弹着点于圆心的距离。试求随机变量X的分布函数。
- 概率密度函数:在断点处未必是连续的
- 密度函数要求非负可积即可。当然在经典连续概率分布中,密度函数通常也是连续的。一来是比较符合自然世界,二来是容易得出优良的数学性质。
- 性质:
1.4.3. 强调
- 随机变量还有其他形式,不是离散的未必是连续的,反之亦然。
2. 矩:数据动力学
2.1. 什么是矩?
- 矩:是物理学中的一个丰富概念,涉及质量、 形状、空间、运动等各个方面。
- Eg.力矩
2.2. 数据原点矩
- 一阶矩是算术平均值,代表数据集的"重心"
- 二阶矩代表数据集的转动惯量
- 原点矩代表了数据集跟重量相关的动力度量
2.3. 数据中心距
- 一阶中心矩B1为零
- 二阶中心矩B2为方差
- 三阶中心矩刻画偏度
- 四阶中心矩刻画峰度
- 中心矩代表了数据集跟几何相关的动力度量
2.4. 例子
2.5. 数学期望
2.5.1. 离散变量数据期望
2.5.2. 连续随机变量数学期望
2.5.3. 数学期望的性质
- 对于常数𝐶, 有𝐸(𝐶)=𝐶
- 对于常数𝐶及随机变量𝑋, 有𝐸(𝐶𝑋)=𝐶𝐸(𝑋)
- 设𝑋和𝑌为两个随机变量, 则𝐸(𝑋+𝑌)=𝐸(𝑋)+𝐸(𝑌)
- 设随机变量𝑋和𝑌独立, 则𝐸(𝑋𝑌)=𝐸(𝑋)𝐸(𝑌)
2.6. 方差
2.6.1. 方差的性质
- 设𝐶是常数,则𝑉𝑎𝑟(𝐶)=0;
- 设𝑋是随机变量, 𝐶是常数, 则 𝑉𝑎𝑟(𝑋+𝐶)=𝑉𝑎𝑟(𝑋),𝑉𝑎𝑟(𝐶𝑋)=𝐶2𝑉𝑎𝑟(𝑋).
- 设随机变量𝑋与𝑌相互独立, 则 𝑉𝑎𝑟(𝑋±𝑌)=𝑉𝑎𝑟(𝑋)+𝑉𝑎𝑟(𝑌).
2.7. 概率分布的矩-数字特征
- 随机变量X的矩定义如下
- 若𝐸(𝑋k)存在(𝑘=1,2,⋯), 称𝐸(𝑋k)为𝑋的𝑘阶原点矩或𝑘阶矩, 记为𝜇𝑘
- 若𝐸((𝑋−𝐸𝑋)k)存在(𝑘=1,2,⋯), 称𝐸((𝑋−𝐸𝑋)k)为𝑋的𝑘阶中点矩, 记为𝜐𝑘
- 中心距的原点矩表示
离散概率分布
- 见离散概率分布
2020-数据科学基础-03-概率分布
https://spricoder.github.io/2020/07/04/2020-Fundamentals-of-Data-Science/2020-Fundamentals-of-Data-Science-03-%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83/