大数据也会撒谎如何戳破谎言

当前位置：首页 » VPS&云 » 大数据也会撒谎如何戳破谎言

时间：2016-09-09　来源：至成科技　作者：至成科技　点击次数：1862

在很多人的心目中，智能代表着快捷和有效，很多数据专家使用统计分析工具挖据数据潜在的内容时经常会遭遇到大数据挖的坑，这样给出的信息就有一定的局限性和虚假性，今天西安云主机为大家介绍如何戳破大数据谎言。随着数据来源的增多和预测类型的多样化，数据建模关系的数量开始接近无穷大。正如David G. Young指出的那样，在预测分析的时候，我们要看到相互作用，变化的曲率、意义，有时甚至要看到变化的标志。

在做数据建模的相关性分析时，较关键的是找对数据范围，尤其是设置合适的变量和算法。一旦你找到了变量和算法的正确组合，那么你就掌握了正确打开相关性分析的密钥。

有时候，我们会发现数据建模的相关性可能和实际情况并不相符，它只是你自以为正确的数据模型。即使你本身并没有欺骗的意图，也是按照科学的方法来建模的，但是你的数据模型并不一定能帮助你获得数据背后的真正洞察力。

先进、集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。这种方法的难点在于要在不同的样本中进行训练，采用不同的算法，但是这种方法能够有效的揭示一些相关性。集成学习的算法是

过独立模型的结果集的训练、取平均、bagging、boosting等多种方法得到的，能够有效减少各层模型之间的差异。

第二、稳健模型；这种方法涉及到数据建模的方方面面，为了预测是稳定的，我们要多方考虑，比如数据源、采样技术、算法方法、时间等等。此外，离散点分析也是非常重要的，Vincent Granville前几年就已经表示数据集的异常有可能掩盖数据的真正模式，增加虚假相关性的发生率。

第三、A/B测试；A/B测试其实是一种“先验”的实验体系，属于预测型结论，与“后验”的归纳性结论差别巨大。A/B测试顾名思义就是为同一个目标设计A、B两套方案，其中一个为守擂者，一个为攻击者，通过科学的实验设计、真实的数据监测来选出较具预测价值的方案。