Hadoop的MapReduce阶段为什么样要进行排序呢?Spark真的比Hadoop强大么
时间:2018-01-31 23:20:01
浏览:次
点击:次
作者:
来源:
立即下载
MapReduce不是①个阶段
准确的说 更像是①个计算组件
Hadoop就是由存储组件HDFS 计算组件MapReduce 资源管理组件Yarn这③个基本组件够成
概念要清晰
好 然后你说的应该是MapReduce计算框架过程中的sort phase
发生sort有两个地方
①个是在map side发生在spill后 partition前
①个是在reduce side 发生在copy后 reduce前
那么问题来了 这个sort有什么好处呢
答案 没什么好处
①开始被这个问题咯噔了①下
后来①想 发现其实问反了
应该说 MapReduce这个框架就是为了分布式计算 然而计算最basic的就是排序
所以说MapReduce最初衷的目的就是为了大数据排序而设计也不会有什么问题
⓪⑧年 这个框架排T等级的数据是最快的 记得有个奖
所以这么说吧
不是sort对后续操作有何好处 而是这个sort为许多应用和后续应用开发带来很多好处 试想分布式计算框架不提供排序 要你自己排 真是哇哇叫 谁还用
话说这个sort phase里面有众多奇淫技巧
是这个框架的精华 值得深究和看source code
中秋快乐
谢邀
如此
平均评分
0人
- 5星
- 4星
- 3星
- 2星
- 1星
- 暂无评论信息
