.

跌下神坛的Hadoop 过度炒作还是理性选择?
shspc 2017-03-10

~长期以来,Hadoop 这个词铺天盖地,几乎成了大数据的代名词。三年之前,提起超越 Hadoop 这件事,似乎还显得难以想象。但三年后的今天,这一情况发生了一些改变。

早在 2012 年,知名媒体 SiliconANGLE 就针对 Twitter 平台上的大数据专业人士做了一项调查。调查结果显示:这些专业人士日常谈论 NoSQL 等技术(如 MongoDB)的次数要远多于 Hadoop。这表明,至少在数据科学家的群体中,用 Hadoop 代指大数据似乎并不准确。

不过,在大部分人的印象中,Hadoop 目前已经是大数据行业最重要的技术之一,是构建今天的常见数据库的基础。不但如此,Hadoop 还在其他一些领域积极拓展着自己的应用范畴,例如仓储系统等。

Hadoop 正失去市场?

然而令人惊讶的是,最近行业里开始传出一种声音:Hadoop 的市场占有率已经出现了明显的停滞不前。甚至 IBM 的大数据宣传人员 James Kobielus 还公开表示:“Hadoop 在大数据领域的颓势比我预期的还要严重。”

要明确 Hadoop 究竟为什么会停滞不前,似乎很复杂,但这种说法也可能是大数据行业里一种比较常见的现象。据 Gartner 在2015年的研究显示,市场上有高达 54% 的公司并没有投资 Hadoop 的打算,而 44% 的公司已经或计划在未来两年内采用 Hadoop。这些数字在不同人看来可能会得到不同的结论:有些人会认为这意味着 Hadoop 在进一步的扩张,但同时也会有人认为 Hadoop 已经显出了颓势。

与此同时,调查还显示:在那些没有投资的人中,有 49% 的人正在努力学习怎样行之有效地利用 Hadoop 为企业创造更多价值,另外还有高达 57% 的人表示并非他们不想,但技能差距(skills gap)是主要障碍,而且这种差距无法在短期内缩小。该结论与另一项关于 Hadoop 的调查相一致:在2014年中期,大约有 0.061% 的招聘广告中出现了“Hadoop Testing”这个关键词,然后该数字在 2016 年末又上升到 0.087%,在 18 个月内增长了大约 43%。

上述事实或许可以表明:单纯从 Hadoop 的市场占有率来推断其发展态势似乎有些片面了,因为还有许多公司并非不想采用 Hadoop,只是他们发现很难利用现有的技术团队充分挖掘 Hadoop 的应用价值,实际上,他们只是需要更多的专业知识。

 

杀鸡无须牛刀

另一个值得关注的因素是数据量。Hadoop是专门针对海量数据而设计的,就像一位数据科学大牛之前在 KD Nuggets 网站的文章中所描述的那样:如果你的企业中没有海量的数据,那就不需要 Hadoop。这也是为什么许多公司对他们只有 2TB 到 10TB 的 Hadoop 集群感到失望的原因,因为 Hadoop 技术在这样的数据储量下根本无法发挥其最大的价值。

还有一个不容忽视的现象是:目前有大量的公司其实并没有足够的数据量来推动 Hadoop 发挥其应有的效力,但是为了充门面、赶潮流还是采用了 Hadoop 框架。然后经过几年的实践,与真正懂行的数据科学家们共事之后,才最终意识到,以他们的数据积累,其实存在着比 Hadoop 更简单、更合适的技术选择。

事实上,对一些公司来说,采用Hadoop框架已经产生了实际的财务问题。Cloudera 和 Hortonworks 就是通过 Hadoop 框架搭建其产品的最大的两家公司,但是从 2015 年中期以来,他们的股价已经分别下跌了 40% 和 68%。

最后,原作者在文末表示,上述关于 Hadoop 的批评或许显得苛刻,需要澄清的一点是:并非 Hadoop 框架本身的缺陷造成了目前的停滞不前。相反,Hadoop 的问题应该归咎于市场上无休止的炒作和夸大。虽然许多公司跟风采用了 Hadoop 技术,但却并没有深刻理解它,也不清楚它正确的使用方法,因而也就无法发挥最高的运行效率,这才导致了 Hadoop 的颓势。但是,原作者强调,Hadoop 仍然是一种具有强大生命力的技术,只是人们需要更深刻地认识它。