我的生活随笔

数据建模的基本流程(数据分析数据建模流程)

  日常的数据分析工作中,除了基本的拆解法、对比法做分析外,也经常需要用到模型的方法来做预测或者分类,这里会介绍建模分析的基本流程及常见处理方法。文章源自略懂百科-

  在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。文章源自略懂百科-

  了解各个特征的业务含义和计算逻辑各个特征的分布是否符合预期特征之间的相关性如何,是否符合基本逻辑特征和目标值的相关性如何,是否符合基本逻辑文章源自略懂百科-

  在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。文章源自略懂百科-

  第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是宁缺毋滥的删除,还是缺失值填充。文章源自略懂百科-

  统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。文章源自略懂百科-

  根据特征的众数、中位数或者平均值来填充;也可以对样本做分类,根据所在类的平均值众数等填充;通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;还可通过比较复杂的方法,如多重插补法。03 小型私人影院 异常数据处理文章源自略懂百科-

  之前介绍过一篇异常数据处理的方法,数据分析-异常数据识别;这篇介绍了多种适应不同场景下的异常数据识别方法。文章源自略懂百科-

  对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。文章源自略懂百科-

  这种情况下,如果不同特征的数值量级差的特别大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。文章源自略懂百科-

  当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。文章源自略懂百科-

  如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。文章源自略懂百科-

  还需要注意的是,如果样本分布非常有偏的话,可以先做box-cox变换,将其往正态分布变换后再标准化。文章源自略懂百科-

  在做完基本的数据清洗以及特征变换后,需要做的是特征选择,一般做特征选择的原因是:文章源自略懂百科-

  某些特征存在多重共线性,这种情况对线性回归和逻辑回归影响比较大;特征太多,有些特征增加了模型复杂性却与模型无关,不能全部入模,需要筛选出价值更高的特征。1. 多重共线性文章源自略懂百科-

  是什么:模型的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。文章源自略懂百科-

  2)线性回归模型,会导致最小二乘估计无法计算系数,即使可计算系数方差也很大,即1)中提到的不稳定。文章源自略懂百科-

  计算特征之间的相关系数,对于相关性特别高的特征,根据业务需要保留有代表性的特征;方差膨胀因子(VIF)。文章源自略懂百科-

  计算每个特征被其他特征拟合的情况,如特征j,被其他特征线性拟合的决定系数为R2;通常拟合越好,决定系数就越大且最大可达到1。文章源自略懂百科-

  所以,当方差膨胀因子过大,说明此特征存在多重共线性。一般大于10会认为有比较强的多重共线性问题。文章源自略懂百科-

  删除共线波涛装饰集团性强的特征;线性回归模型的话,可采用岭回归的估算方式解决。2. 特征太多文章源自略懂百科-

  对于二分类问题来说,筛选逻辑是:筛选出对二分类结果区分度比较高的特征;可以通过计算IV(information value)值的大小来筛选,一般IV值越大,此特征对二分类结果更有区分度。对于回归预测问题,主要针对多元线性回归。筛选特征的方法有:特征子集选择法、正则化法以及降维法。文章源自略懂百科-

  具体方法就是从0个特征开始,一个一个逐步从剩余特征中添加使得模型拟合误差最小的特征,在添加过程中得到模型拟合最优的特征组合。文章源自略懂百科-

  和向前逐步选择类似,只是反过来了,让所有特征入模,再一步一步剔除效果不好的特征,从而达到最优。文章源自略懂百科-

  一般的线形回归我们只会希望它的误差平方和最小,但是lasso的目标函数在原有目标函数后面加了一项系数惩罚项。这样让目标函数最小,可以实现无意义特征的系数为0,从而实现特征选择。文章源自略懂百科-

  这个是将原有有一定线性关系的特征线形组合成新的相互独立的特征,所以不适合原有特征已经相互独立的情况。文章源自略懂百科-

  以上就是数据建模的前期准备流程,做完这些内容就可以开始模型训练,对模型结果进行预测分析啦,而这部分则是不同模型会有不同的具体处理方法。文章源自略懂百科-

  总之,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,所以这部分工作一定要做细做准确。文章源自略懂百科-

  上海东大名路668号,一幢外形好似钻石的小楼静静伫立。在周围高楼大厦的掩映下,它并不起眼。 这就是新建成的数字北外滩展示馆。记者参观体验后,才发现其中别有洞天:通过智慧化体验,便可以飞跃地平线一般,看…

  随着互联网的发展,5G的普及,农业发展的方向也将迎装修公司选择来大变天,新时代的农民不再是只会简单的农业生产,而是全方位的专业生产运营。农业6大致富项目,这波红利你能抓住吗? ? 项目一:农村自媒体 在短视频时代…

  现如今生活条件的改善,心脑血管疾病的患病率越来越高,被我们称为富贵病,据世界卫生组织(WHO推测,全球每年有3600万人死于心血管疾病,占全球死亡总数的2/3,而我国就已经有2.9亿人患有心脑血管疾病…

  非洲,位于东半球西部,欧洲以南,亚洲之西,东濒印度洋,西临大西洋,纵跨赤道南北,面积大约为3020万平方公里(土地面积),占全球总陆地面积的20.4%,是世界第二大洲,同时也是人口第二大洲(约12.8…

美国的51区有没有外星人,为什么历届总统上任前都要去看看? 西安到哈尔滨的飞机票(西安到哈尔滨的飞机票查询西安到哈尔滨的高铁)

赞(0)
未经允许不得转载:我的生活随笔 » 数据建模的基本流程(数据分析数据建模流程)

我的生活随笔我的生活随笔