• 数据清理

     如果数据很大,很多的统计错误可以最终通过大量数据的综合分析而消减掉——这是大数定理。只要是任何符合正态分布的数据集,在海量数据面前,统计异常值都会快速消失掉。

  • 特征工程方法——特征选择

     结合领域专业知识和相关任务要求对高维特征进行特征的筛选,可以选出需要的特征来进行后续模型的训练等步骤。

  • 特征工程方法——特性相关性分析

     一般数据特征间具有一定程度的线性和非线性关联关系,传统模型如SVM、LR等是难以学习到特征间的这些相关性。因此需要通过辅助方法对特征的相关性进行分析,根据分析结果,再结合相关领域的知识以及对业务问题的专业理解,通过特征组合、特征交叉或者加减乘除的方式去构建出更能描述目标问题的关键特征。常见的特征相关性分析方法主要有:Pearson相关性系数、最大互信息系数。

     
  • 特征工程方法——特征编码

     特征编码较常用的方法是one-hot编码和Word2vec编码

  • 特征工程

    特征工程是指通过对原始数据进行分析与转换以获取对目标任务更好的表达,它是构造一个优秀模型的必要环节。因此,在经过数据预处理后,还需要通过一系列的特征工程方法对数据进行分析处理,挖掘其中的关键信息,来提升模型的稳定性和鲁棒性。

  • 数据标准化

    数据标准化是指通过一定的方法和比例将数据映射到指定区间,根据使用函数的不同可以归纳为三类:直线型无量纲法、折线形无量纲法以及曲线型无量纲法。一些原始数据集是没有经过转化的有量纲数据,如果将其直接输入到模型中进行训练,受不同量纲特征的影响,会导致模型的收敛速度变慢,并且当特征量纲级别相差特别大时,模型可能会忽略掉量纲较小的特征而达不到理想效果。因此,在模型训练前,需要通过标准化方法将数据转换成无量纲数据,以消除量纲对模型产生的影响。

  • 数据降维处理

     对多个变量的大数据分析时,会有很多丰富信息,变量之间可能存在相关性,但增加了问题分析的复杂性。 而将每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,甚至还可能产生错误的结论。

  • 数据融合处理

    将多维传感器产生的数据进行数据融合,能够产生比单一信息源更精确、更完全、更可靠的数据。数据融合分为预处理和数据融合两步。

  • 异常值检测——基于预测的方法

     对于单条时序数据,根据其预测出来的时序曲线和真实的数据相比,求出每个点的残差,并对残差序列建模,利用KSigma或者分位数等方法便可以进行异常检测。

  • 异常值检测——基于分类的方法

     SVM(支持向量机)是一种用于检测异常的有效的技术。SVM通常与监督学习相关联,是一类对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。

  • 异常值检测——基于降维的方法

    PCA在做特征值分解之后得到的特征向量反应了原始数据方差变化程度的不同方向,特征值为数据在对应方向上的方差大小。

  • 异常值检测——基于树的方法

    这类方法为基于划分的方法范畴。

    最简单的划分方法就是阈值检测,其通过人为经验划定阈值,对数据进行异常判断。
    具体的,为了避免单点抖动产生的误报,需要将求取累积的窗口均值进行阈值判别,具体的累积就是通过窗口进行操作。

  • 异常值检测——基于聚类的方法

     通常,类似的数据点往往属于相似的组或簇,由它们与局部簇心的距离决定。正常数据距离簇中心的距离要进,而异常数据要远离簇的中心点。聚类属于无监督学习领域中最受欢迎的算法之一,关于聚类异常检测可分为两步。

  • 异常值检测——基于密度的方法

     基于密度的异常检测有一个先决条件,即正常的数据点呈现“物以类聚”的聚合形态,正常数据出现在密集的邻域周围,而异常点偏离较远。

     
     
  • 异常值检测——基于统计分析的方法

     数据分布模型可以通过估计概率分布的参数来创建。如果一个对象不能很好地同该模型拟合,即如果它很可能不服从该分布,则它是一个异常。

  • 数据重采样

    针对时序数据可采用数据重采样方法,将时间序列从一个频率转换至另一个频率的过程,它主要有两种实现方式,分别是降采样和升采样,降采样指将高频率的数据转换为低频率,升采样则与其恰好相反,将低频率数据转换到高频率。

  • 缺失值处理方法——预测法

    这类方法是用预测模型来预测每一个缺失数据。用已有数据作为训练样本来建立预测模型,预测缺失数据。该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。

  • 缺失值处理方法——热卡填充法

    这类方法是在数据集中寻找与缺失样本最相似的样本点,并利用该最相似样本的变量值对缺失数据进行填充。问题关键是不同的问题可能会选用不同的标准来对相似进行判定,以及如何制定这个判定标准。该方法概念上很简单,且利用了数据间的关系来进行空值估计,但缺点在于难以定义相似标准,主观因素较多。

  • 缺失值处理方法——基于模型的填充法

    这类方法是利用有监督的模型或者无监督的模型来实现缺失值的填充。例如:K近邻填充是利用聚类的方式来获得某个缺失样本邻近的若干个样本点,通过对这些样本点计算均值或加权平均来进行缺失值填充。

  • 缺失值处理方法——基于插值的填充法

    这类方法主要是通过随机插值、拉格朗日插值、多项式插值等方法对缺失的变量值进行填充。例如:多项式插值法是通过构建多项式来拟合现有的数据,使得所有的样本数据都符合该多项式的分布,需要获取某个样本的缺失值时,通过求解该多项式来获得。