统计学习方法读书笔记
[TOC]
统计学习分类
基本分类
监督学习
无监督学习
强化学习
半监督学习与主动学习
按模型分类
概率模型与非概率模型
—-> 1. 概率模型:概率的分布P(y|x)
2. 非概率模型:函数形式f(x)
线性模型与非线性模型
参数化模型与非参数化模型
按算法分类
- 在线学习与批量学习
按技巧分类
- 贝叶斯学习
利用先验概率
- 核学习
?
统计学习三要素
方法=模型+策略+算法
- 模型
模型的假设空间包含所有可能的条件概率分布或决策函数 - 策略
1.损失函数和风险函数
病态问题:问题的解关于条件非常敏感。条件(或数据)中即使存在极微妙的噪声,也会对问题的解造成剧烈的变化。损失函数 0-1损失函数:Yes or Not 平方损失函数 绝对损失函数 对数损失函数(对数似然损失函数)
2.经验风险最小化和结构风险最小化 经验风险最小化策略or结构风险最小化策略风险函数 模型关于训练集的平均损失称为经验风险或经验损失 期望风险是模型关于联合分布函数的期望损失 当样本容量趋向无穷可以近似经验风险趋近期望风险
经验风险最小化策略
当模型是条件概率分布且损失函数是对数损失时
经验风险最小化相当于极大似然估计
但当样本容量很小时会出现过拟合
结构风险最小化策略
防止过拟合
正则化
在经验风险的基础上添加了模型的复杂度
对过于复杂的模型惩罚
eg:贝叶斯估计中的最大后验概率估计 - 算法
用什么计算方法求解最优模型
模型评估与模型选择
训练误差与测试误差
- 训练误差
关于训练数据集的平均损失 - 测试误差
关于测试数据集的平均损失
两者中,测试误差更为重要过拟合与模型选择
- 过拟合
模型复杂度过高导致与训练数据极其符合但维度远大于实际 - 模型选择方法
- 正则化
在经验风险后加一个惩罚项
正则化项可以是L1范数或L2范数L1范数:
绝对值之和
生成稀疏的参数
L2范数:
平方和开根
生成很多接近0的参数
可以避免过拟合 - 交叉验证将数据集切成训练集,验证集,测试集
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
- 正则化
感知机
算法
原始算法
不断测试每个节点是否被误分类,则其根据距离超平面的距离和设置的参数
$$
(学习率)\eta
$$
调整超平面的位置,直至完全划分。
$$
w\leftarrow w+\eta y_ix_i
$$
$$
b\leftarrow b+\eta y_i
$$
对偶算法
先将各个分类点互相内积后储存在一个NxN的矩阵中,将w表示为∑(i,N)aixi。迭代改变各个ai,直至完全划分,此时w,b可知。
$$
a_i\leftarrow a_i+1
$$
$$
b \leftarrow b+y_i
$$
$$
G=[x_i\cdot x_j]_N\times _N
$$