核密度图:直方图的拟合曲线
箱式图/箱线图 (box plot):
- 四分位距 (IQR):即箱子大小,数值为Q75- Q25。包含50%的数据,箱体大表示数据分布离散,数据波动较大,箱体小表示数据集中
- Q75:75%分位数,箱子上边
- Q25:25%分位数,箱子下边,Q75和Q25为四分位数
- 中位数 (Q50):箱体中的横线(50%分位数),可用来分辨偏度
- 对称分布:中位线在箱子中间
- 右偏分布:中位数更靠近下四分位数
- 左偏分布:中位数更靠近上四分位数
- 相邻值 (adjacent value):非离群点的最大最小值
- 上端/上限值 (upper):$Q75+1.5\times IQR$,箱子上触须
- 下端/下限值 (lower):$Q25-1.5\times IQR$,箱子下触须
- 如果上下线 (
$1.5\times IQR$ ) 不同长:- 数据的最大/小值没有到本应取的上端/下端相邻值,故取真实的最大/小值
- 大多数情况下是取本应取到范围内的最大/小值
- 离群值/极值 (outside points):高于上端相邻值/低于下端相邻值的点
小提琴图 (violin plot):展示多组数据的分布状态以及概率密度,核密度图和箱线图的结合体
分布:
- 指数分布 (exponential distribution)
- 密度函数:$f(x)=$
- 分布函数
- 数学期望:$\theta$
- 方差:$\theta^2$