T-Rex Label

归一化

归一化是指这样一个过程:对数据集中的值进行缩放和变换,使其具有统一的尺度,同时保持原始值之间的相对排名和顺序不变。它是机器学习(ML)中一种常见的预处理步骤。这一步骤非常关键,因为它确保数据具有统一的格式,适合与机器学习算法配合使用。

归一化有多种实现方法,比如标准化、Z 分数归一化和最小-最大归一化。最小-最大归一化通过缩放数据,将所有值映射到一个预先设定的范围,通常是 0 到 1 之间。标准化则将数据变换为均值为 0、标准差为 1 的分布。Z 分数归一化通过应用 Z 分数公式,同样把数据缩放为均值为 0、标准差为 1 的分布。

归一化常被用于确保数据符合机器学习算法的要求。许多机器学习算法假定数据呈正态分布,并且特征具有相似的尺度。此外,归一化还可以减轻异常值的影响,提升某些算法的性能。