首页 > 互联网知识

Hadoop的MapReduce阶段为什么样要进行排序呢？Spark真的比Hadoop强大么

时间：2018-01-31 23:20:01 浏览：次点击：次作者：来源：

MapReduce不是①个阶段

准确的说更像是①个计算组件

Hadoop就是由存储组件HDFS 计算组件MapReduce 资源管理组件Yarn这③个基本组件够成

概念要清晰

好然后你说的应该是MapReduce计算框架过程中的sort phase

发生sort有两个地方

①个是在map side发生在spill后 partition前

①个是在reduce side 发生在copy后 reduce前

那么问题来了这个sort有什么好处呢

答案没什么好处

①开始被这个问题咯噔了①下

后来①想发现其实问反了

应该说 MapReduce这个框架就是为了分布式计算然而计算最basic的就是排序

所以说MapReduce最初衷的目的就是为了大数据排序而设计也不会有什么问题

⓪⑧年这个框架排T等级的数据是最快的记得有个奖

所以这么说吧

不是sort对后续操作有何好处而是这个sort为许多应用和后续应用开发带来很多好处试想分布式计算框架不提供排序要你自己排真是哇哇叫谁还用

话说这个sort phase里面有众多奇淫技巧

是这个框架的精华值得深究和看source code

中秋快乐

谢邀

如此

收起

相关推荐