Hadoop的MapReduce阶段为什么样要进行排序呢?Spark真的比Hadoop强大么

时间:2018-01-31 23:20:01   浏览:次   点击:次   作者:   来源:   立即下载

MapReduce不是①个阶段

准确的说 更像是①个计算组件

Hadoop就是由存储组件HDFS 计算组件MapReduce 资源管理组件Yarn这③个基本组件够成

概念要清晰

好 然后你说的应该是MapReduce计算框架过程中的sort phase

发生sort有两个地方

①个是在map side发生在spill后 partition前

①个是在reduce side 发生在copy后 reduce前

那么问题来了 这个sort有什么好处呢

答案 没什么好处

①开始被这个问题咯噔了①下

后来①想 发现其实问反了

应该说 MapReduce这个框架就是为了分布式计算 然而计算最basic的就是排序

所以说MapReduce最初衷的目的就是为了大数据排序而设计也不会有什么问题

⓪⑧年 这个框架排T等级的数据是最快的 记得有个奖

所以这么说吧

不是sort对后续操作有何好处 而是这个sort为许多应用和后续应用开发带来很多好处 试想分布式计算框架不提供排序 要你自己排 真是哇哇叫 谁还用

话说这个sort phase里面有众多奇淫技巧

是这个框架的精华 值得深究和看source code

中秋快乐

谢邀

如此

收起

相关推荐

相关应用

平均评分 0人
  • 5星
  • 4星
  • 3星
  • 2星
  • 1星
用户评分:
发表评论

评论

  • 暂无评论信息