统计学习方法
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,今天学习啦小编就与大家分享:统计学习方法,希望对大家的学习有帮助!
统计学习方法一
统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statical machine learning)。
统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。
统计学习方法包括假设空间、模型选择的准则、模型学习的算法,这些统称为统计学习方法的三要素:模型(Model)、策略(Strategy)、算法(Algorithm)。
实现统计学习方法的步骤如下:
得到有限的训练数据集合
确定包含所有可能的模型的假设空间,即学习模型的集合
确定模型选择的准则(什么是最优模型的标准),即学习的策略
实现求解最优模型的算法(如何获取最优模型),即学习的算法
通过学习方法选择最优模型
利用学习到的最优模型对新数据进行预测和分析
监督学习
监督学习是学习一个模型,使模型能够对任意的输入,对其相应的输出做出一个好的预测。
基本概念
训练数据(training data):一个给定的、有限的、用于学习的数据。
输入空间(input space):输入的可能取值的集合;
特征空间(feature space):每个具体的输入是一个实例,通常由特征向量表示。特征向量存在的空间称为特征空间。(有时输入空间和特征空间为相同空间,有时则不同,则需将实例从输入空间映射到特征空间),模型是定义在特征空间的。
输出空间(output space):输出的可能取值的集合;
训练集:输入(或特征向量)与输出对组成。
输入与输出对又称为样本。
联合概率分布:监督学习假设输入和输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数或分布密度函数。 训练数据和测试数据是依据P(X,Y)独立同分布产生的。X 和 Y 具有联合分布的假设是监督学习关于数据的基本假设。
假设空间(hypothesis space):模型属于输入空间到输出空间的映射的集合,这个集合就是假设空间。模型可以是概率模型也可以使非概率模型。由P(Y|X)或决策函数 Y = f(X)表示。具体的用小写字母表示。
(PS.输入、输出变量用大写字母表示,输入输出变量所取得的值用小写字母表示。)
问题形式化
监督学习分为学习和预测两个过程,由学习系统与预测系统组成。
统计学习方法二
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。
统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
统计学习的目的就是考虑学习什么样的模型和如何学习模型。
统计学习方法三
(1) 得到一个有限的训练数据集合;
(2) 确定包含所有可能的模型的假设空间,即学习模型的集合;
(3) 确定模型选择的准则,即学习的策略;
(4) 实现求解最优模型的算法,即学习的算法;
(5) 通过学习方法选择最优模型;
(6) 利用学习的最优模型对新数据进行预测或分析。