1 机器学习概念和相关术语介绍

1.基本概念

1.1 统计学习

概念

统计学习是关于计算机基于数据构建概率统计模型，并运用模型对数据进行预测与分析的一门学科，统计学习也称为统计机器学习。
对象

统计学习研究的对象是数据。它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。

统计学习关于数据的基本假设是同类数据具有一定的统计规律性，这是统计学习的前提。
目的

统计学习用于对数据的预测与分析，特别是对未知新数据的预测与分析；而对数据的预测与分析是通过构建概率统计模型实现的。

统计学习总的目标就是考虑学习什么样的模型和如何学习模型，以使模型能对数据进行准确的预测与分析，同时也要考虑尽可能地提高学习效率。
方法

统计学习方法可以概括如下:从给定的、有限的、用于学习的训练数据集合出发，假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合，称为假设空间；应用某个评价准则，从假设空间中选取一个最优模型，使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测；最优模型的选取由算法实现。

这样统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为统计学习方法的三要素，简称为模型(model)、策略(strategy)和算法(algorithm)

实现统计学习方法的步骤如下:
- (1)确定训练数据集;
- (2)确定学习模型的集合，(即包含所有可能的模型的假设空间);
- (3)确定模型选择的准则，(即学习的策略)；
- (4)实现求解最优模型的算法，(即学习的算法)；
- (5)通过学习方法选择最优模型;
- (6)对新数据进行预测或分析。

1.2 机器学习分类

1.2.1 基本分类

1.2.1.1 监督学习(Supervised Learning)

监督学习是从有标记的训练数据 中学习模式和关系，算法的目标是通过输入特征与其相应的标签之间的关联性，构建一个能够准确预测新数据的标签的模型。

监督学习的典型任务包括分类和回归问题。

1.2.1.2 无监督学习(Unsupervised Learning)

无监督学习算法从没有标记的训练数据中学习预测模型。与监督学习不同，无监督学习不依赖于预先标记的标签，而是尝试从输入数据中提取统计规律或潜在结构，这对于许多实际应用来说是非常有价值的信息。

无监督学习的典型任务包括聚类、降维和异常检测。

1.2.1.3 强化学习(Reinforcement Learning)

强化学习是指智能系统通过与环境互动并基于其表现获得奖励或惩罚，以学习如何在特定环境中采取最优行动。

强化学习的目标是使得智能系统能够最大化其所获得的奖励，并在长期和短期之间找到一个平衡。
与监督学习和无监督学习不同，强化学习是一个试错的过程，其中智能体通过尝试不同的行动来学习如何在环境中获得最佳结果。

强化学习的典型应用包括游戏策略、自动驾驶、机器人控制和其他决策制定问题。

在强化学习中，关键的要素包括智能体(系统)、环境、行动、奖励和策略。智能体是执行任务的实体，环境是智能体执行行动的场所，行动是智能体在环境中可以采取的行动，奖励是智能体在执行特定行动后从环境中获得的反馈，策略是智能体根据当前状态选择最优行动的方法。

强化学习算法通常采用动态规划、蒙特卡洛方法、时序差分等方法来学习最优策略。

1.2.1.4 半监督学习(Semi-supervised Learning)

半监督学习结合了监督学习和无监督学习的特点。算法使用大量的未标记数据和少量的标记数据来进行模式识别工作。

半监督学习往往利用未标记数据中的信息，辅助标记数据进行学习。但同时也可以利用标记数据来辅助未标记数据，以更好地理解数据的结构和统计关系。

1.2.1.5 主动学习(Active Learning)

主动学习允许算法通过主动询问用户的反馈来优化模型。主动学习通过选择最有信息量的样本来提高学习模型的性能。这些最有信息量的样本通常是难以分类的、存在噪声的或者新的数据点。主动学习算法在训练过程中主动选择这些样本来获取更多的信息，从而优化模型的准确性。

与监督学习和无监督学习不同，主动学习需要用户的反馈，并且选择哪些样本进行反馈是由算法自动完成的。

主动学习的典型应用包括垃圾邮件识别、疾病诊断和语音识别等领域。

一些常见的主动学习算法包括查询最优划分、熵最大化和不确定采样等。

1.2.2 按照模型分类

1.2.2.1 概率模型与非概率模型

概率模型

机器学习中的概率模型指的是一种建立概率分布关系的模型，它由一组概率定义，描述了模型中各个随机变量的概率分布，如 p(y|x) or p(x|y)。概率模型可以用来表示不确定性，建立输入和输出之间的概率关系，并通过统计方法进行预测和决策。

常见的概率模型包括朴素贝叶斯模型、最大熵模型、多项式分布模型等。
非概率模型

非概率模型则不直接涉及概率的概念，而是通过建立决策函数或模型来描述输入和输出之间的关系，如 y=f(x) or z=g(x);
非概率模型不提供概率分布或不确定性估计，而是通过拟合数据集的方式进行预测和决策。

常见的非概率模型包括决策树、支持向量机、K-近邻算法、神经网络等。

1.2.2.2 线性模型与非线性模型

线性模型

如果因变量和自变量之间存在线性关系，即模型 y=f(x) 可以表示为线性函数，就是线性模型。
常见的线性模型有：线性回归（Linear Regression）、对数几率回归（Logistic Regression）、线性判别分析（Linear Discriminant Analysis）等
非线性模型

如果因变量和自变量之间是非线性关系，即模型 y=f(x) 是非线性函数，就是非线性模型。
常见的非线性模型：决策树（Decision Tree）、支持向量机（Support Vector Machine，SVM）、神经网络（Neural Network）等

1.2.2.3 参数化模型与非参数化模型

参数化模型

参数化模型通常假设总体(population)服从某个分布，这个分布由一些参数确定；而且假设模型的参数的维度是固定的，数目是有限的。
常见的参数化模型有线性回归模型、神经网络模型。
非参数化模型

非参数化模型则不指定总体的分布(population)，只通过非参数统计的方法进行推断。非参数模型对于总体的分布不做任何假设或限制，只根据数据本身的特征进行学习和预测。因此，非参数化模型无法得到明确的参数形式，而是通过拟合数据集的方式进行预测和决策。
虽然非参数化模型本身没有明确的参数形式，但在实际应用中仍然存在一些可调的参数需要进行调整和优化，比如一些超参数、或者偏置等等，又或者其参数的维度不固定，或者数目无穷大（随着输入增大而变多）。
常见的非参数化模型有决策树、KNN、随机森林等。
(注：支持向量机可以被视作参数化模型，也可以视作非参数化模型。感兴趣的可以去网上搜索相关资料，在此不赘述。)

1.2.3 按数据选择的不同方式

1.2.3.1 在线学习

在线学习是指每当一份新的样本数据到来时就进行一次训练，而不需要等到所有的数据都集齐后再统一进行训练。这种方法在处理大量数据时非常有效，因为每次只需要处理一部分数据，而不是等待所有的数据都集齐。因此，在线学习可以节省时间和计算资源。

1.2.3.2 离线学习

离线学习是指将所有的数据收集齐后，再进行一次性训练。这种方法通常需要更多的时间和计算资源，因为需要等待所有的数据都集齐后才能开始训练。然而离线可以更准确地反映数据的整体分布，从而得到更精确的模型。

通常，一次性将数据全部用于训练，也被称为批量训练（Batch Learning）。Offline Learning是一种广义的概念，Batch Learning可以被视为Offline Learning的一种具体实现方式。

小批量学习（Mini-batch Learning）学习是介于在线学习（Online Learning）和批量学习（Batch Learning）之间的一种方法,每次从整个数据集中选择一小部分数据（称为mini-batch）进行训练，而不是使用整个数据集进行训练，也不是每次只处理一个数据样本。
严格来讲，小批量学习也是属于离线学习中的一类。
Mini-batch Learning 在神经网络训练中非常常见，因为它可以有效地利用GPU的并行计算能力，同时也可以减少内存占用

1.3 统计学习三要素

1.3.1 模型

模型是所要学习的条件概率分布或决策函数，能够将输入数据映射到预测输出。模型通过对数据集进行训练，学习其拟合数据的特性，从而对未知数据进行预测。

1.3.2 策略

简单来讲就是度量一个模型好坏的评价标准或选择最优模型的方法。
同时会在学习过程中应用该方法来指导模型的训练，以期望最终得到的模型将来对未知的数据具有最好的预测准确度。
（损失函数可以理解为一种具体的策略，策略是一种更广义的定义，比如结构风险、经验风险等）

1.3.3 算法

算法是指学习模型的具体计算方法。统计机器学习问题通常会被归结为最优化问题，所以一般情况下可以理解成最优化问题的算法，比如牛顿法、梯度下降法、最小二乘法、动态规划等等。

1.4 基础性术语

1.4.1 数据集(dataset)

就是数据组成的一个集合；比如：

CV领域经典的 MNIST、ImageNet、PASCAL VOC 数据集;
NLP领域经典的 IMDb Movie Reviews、GLUE 数据集;
Recommendation领域经典的 MovieLens、Netflix Prize 数据集;

这里推荐两个下载数据集的链接 kaggle 、paperswithcode.

1.4.2 样本(sample/instance)

可以理解为一部分数据（即数据集的一个采样）; 也可以理解成数据集中的一个具体事件、对象、记录。
具体是复数还是单数，要看具体的语境。

1.4.3 特征(feature)

描述数据的基本属性或者指标；特征通常由向量来表示，称为特征向量(featrue vector)
比如一个记录医院患者情况的数据集，那么每个患者的一些身体指标（血压、血糖、血脂等等）就可以作为患者的特征；
又比如购物网站中商品数据集，商品的价格、品牌、用途、种类等等属性就可以作为商品特征。

1.4.4 标签/标注(label)

在监督学习中，标签是指的记录数据正确的（或者说应有的）输出或者类别，这个信息可作为“监督信息”来指导模型的训练，因为这个信息就是监督学习训练的目标，所以有时候也被成为目标(target)；

对于一个训练得较好的模型来讲，在输入相应的样本时，理论上模型的输出，就应该和这个样本的标注信息一致。

（用更为通俗的话来讲，标签就是我们学生时代做练习题时的“参考答案”，我们可以在做题时或做完后，观看参考答案来对自己掌握的知识、做题方法进行校正，以便之后遇到同样的题目或者类似的题目时，能够写出正确答案。）

无监督学习问题中，数据集一般就是没有标签的。

这里多提一句，标注信息并不一定100%准确，有可能会有少量样本对应的标注是错误的，这种可以理解为脏数据。脏数据是否会对模型造成很大的影响，要具体问题具体分析。

1.4.5 真相/真实(Ground-Truth)

Ground-Truth一般是数据的某种潜在规律，或者说是一种更为准确和精细的参考标准；用于评估机器学习模型的表现。
在有些场合，是认为标注中正确的标注就叫做ground truth，错误的标注则不是；
在有些不严格的场合，ground truth 和 label 往往混用。

1.4.6 训练集(training set)

用于训练和学习的数据集，通常是从原始的大数据集中选择的一部分；
包含了输入特征和对应的输出标签（无监督学习任务可能没有标签这一部分），模型就是基于这些数据来训练，以获得预测位置数据的能力。

1.4.7 验证集(validation set)

是在训练过程中（或完成后）用来评估模型的性能和效果的数据集；根据模型在验证集上的表现，来调整对于模型后续的优化、训练思路。

验证集一般也是从原始的大数据集中选取。通常来讲，一个原始大数据集会被分为训练集和验证集两部分，来供我们训练模型使用。

需要注意的是，验证集不会被直接用来更新模型，即只关心输入验证集后得到的输出。
换句话说，模型不会从验证集中学习知识，只用它来检验效果；如果后续对模型进行迭代和优化，还是要回到训练集上去学习。

1.4.8 测试集(test set)

测试集和验证集的作用比较类似，也是用来评估模型的性能和效果的数据集，有些不严格的场合是将二者混用；

然而，二者从本质上来讲还是有区别的：
测试集是在训练集和验证集之外单独抽取的数据集，用于评估模型在未知数据上的性能，比如：

对于一些应用于实际生活中的机器学习模型，其面对的真实世界中的数据，就是属于 testing set;
对于一些机器学习竞赛，我们提交模型后，主办方用于评估我们模型的数据，就是属于 testing set。

所以从严格意义上来讲，一般情况下，我们在训练自己的模型的时候，是不会接触到 testing set 的；我们在训练和优化模型时用来做测试，做所谓 “test” 的数据，其实准确的说法是验证集(validation set)，只不过日常口语化的表达会把它称为“测试集”，但一定要理解这二者本质上的差异，在书写论文的时候要严格规范用语。

1.4.9 输入空间(input space)

输入数据所有可能的取值的集合。

1.4.10 特征空间(feature space)

所有特征向量存在的空间；特征空间的大小由特征向量的维度决定。

1.4.11 输出空间(output space)

输出所有可能的取值的集合。

1.4.12 假设空间(hypothesis space)

所有能够将输入映射到输出的预测函数（或模型）所组成的函数空间（或者说集合）。假设空间的确定意味着学习范围的确定。
比如，假设因变量 y 和自变量 x 成正比例关系，则假设空间就是 y = kx, (k>0)。这个表达式就包含了所有可能的正比例函数。

本篇文章中涉及的参考资料¹²。

¹: 李航. (2019). 统计学习方法. 清华大学出版社.
²: 周志华. (2016). 机器学习. 清华大学出版社.