Head First Statistics

1. 信息图形化

概念整理:
统计
信息和数据的区别?
饼图 + 条形图/水平条形图/堆积条形图/分段条形图 + 直方图

标度 : 百分数标度 + 频数标度

要点:
频数是一种统计方法, 用于描述一个类别中有多少个项.

集中趋势的量度

均值和平均数的区别
均值的两个表达式(全统计和频数统计) 和 符号 μ

异常值 : 和其他数据格格不入的极高或极低的数值.
偏斜数据 :

  1. 均值和中位数的区别?
    在数据存在偏斜的情况下, 中位数更能很好的表现数据分布.
    大多数情况系, 均值远优于中位数, 尤其对抽样数据来说.

P62

怎么判断数据倾斜发现?
尾巴往哪儿甩 就是哪倾斜, 而不是数据头部在哪里倾斜在哪里.

众数也是平均数的一种

如果有两个众数, 则是双峰数据.

众数组: 具有最高频数的组.

众数在众数较多时最没用.

众数必须存在数据集中.
众数是唯一能用于类别数据的平均数.

P78值得记录.

P83 第三章

全距: 数据的扩展范围. 也叫极差.
用数据集中最大值减去最小值, 最大值叫上界, 最小值叫下界.

全距仅描述了数据的范围, 并没有描述数据在上,下界之间的分布形态.

全距很容易受异常值的影响.

四分位数: 将整个数据一分为四的几个数值.

上四分位数, 下四分位数, 中位数,

四分位距 = 上四分位数 – 下四分位数

四分位距和全距相比, 较少受到异常值的影响.

Chapter 4. 概率

样本空间

维恩图
对立事件

互斥事件 : 如果两个事件是互斥事件, 则只有其中一个事件会发生. ( 如果两个事件中只有一个会发生, 能不能说这两个事件是互斥事件?)
相交事件 : 如果两个事件相交, 则这两个事件有可能同时发生.

如果P149, 则说A和B穷举.

条件概率

概率树

全概率公式

贝叶斯定理

Chapter 5. 离散概率分布的运用

\$\sigma\$

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据