大数据容易陷入怎样的误区?
Ulf-Dietrich Reips 和 Uwe Matzat 在 2014 年写道,大数据已成为科学研究的“时尚”。研究人员达纳赫博伊德(Danah Boyd)对科学中使用大数据感到担忧,他忽视了原则,比如选择一个有代表性的样本,因为他太担心处理大量的数据。这种方法可能会以某种方式导致结果偏差。跨越异构数据资源的整合 - 有些可能被认为是大数据,有些则不是 - 提出了巨大的后勤和分析挑战,但许多研究人员认为,这种整合很可能代表了科学领域最有前途的新领域。在一篇颇为犀利的的文章《关于大数据的关键问题》中,作者称大数据为神话的一部分:“大数据集提供更高形式的智能和知识,具有真实的光环,客观性和准确性“。大数据用户往往“迷失在庞大的数量中”,“处理大数据仍然是主观的,而且它量化的东西并不一定更接近客观事实。”商业智能领域的最新发展,例如主动报告,特别是通过对无用数据和相关性的自动过滤来改善大数据的可用性。
与分析较小的数据集相比,大数据分析通常较浅。在许多大数据项目中,没有发生大数据分析,但挑战在于提取,转换和加载部分数据预处理。
大数据是一个流行词和一个“模糊词”,但与企业家,顾问,科学家和媒体同时成为“痴迷”。 Google 流感趋势等大数据展示近年来未能提供良好的预测,夸大了流感爆发的两倍。同样,仅基于推特的奥斯卡奖和选举预测往往比预期的要少。大数据通常与小数据一样提出相同的挑战,增加更多数据并不能解决偏见问题,但可能会强调其他问题。特别是像 Twitter 这样的数据来源并不代表总体人口,从这些数据中得出的结果可能会导致错误的结论。
了解更多硅谷前沿深度讯息请看 硅发布 微信公众号