Skip to content

Latest commit

 

History

History
33 lines (25 loc) · 1.33 KB

Statistics.md

File metadata and controls

33 lines (25 loc) · 1.33 KB

图表

核密度图:直方图的拟合曲线

箱式图/箱线图 (box plot):

  • 四分位距 (IQR):即箱子大小,数值为Q75- Q25。包含50%的数据,箱体大表示数据分布离散,数据波动较大,箱体小表示数据集中
    • Q75:75%分位数,箱子上边
    • Q25:25%分位数,箱子下边,Q75和Q25为四分位数
  • 中位数 (Q50):箱体中的横线(50%分位数),可用来分辨偏度
    • 对称分布:中位线在箱子中间
    • 右偏分布:中位数更靠近下四分位数
    • 左偏分布:中位数更靠近上四分位数
  • 相邻值 (adjacent value):非离群点的最大最小值
    • 上端/上限值 (upper):$Q75+1.5\times IQR$,箱子上触须
    • 下端/下限值 (lower):$Q25-1.5\times IQR$,箱子下触须
    • 如果上下线 ($1.5\times IQR$) 不同长:
      • 数据的最大/小值没有到本应取的上端/下端相邻值,故取真实的最大/小值
      • 大多数情况下是取本应取到范围内的最大/小值
  • 离群值/极值 (outside points):高于上端相邻值/低于下端相邻值的点

小提琴图 (violin plot):展示多组数据的分布状态以及概率密度,核密度图和箱线图的结合体

概率

分布:

  • 指数分布 (exponential distribution)
    • 密度函数:$f(x)=$
    • 分布函数
    • 数学期望:$\theta$
    • 方差:$\theta^2$