既然Spark比Hadoop性能好很多?spark的MEMORY_AND_DISK用途
时间:2017-12-21 18:50:01
浏览:次
点击:次
作者:
来源:
立即下载
既然Spark比Hadoop性能好很多,Hadoop可不可以从Spark中借鉴①些技术,可以借鉴哪些技术,未来Hadoop可不可能达到与Spark类似的水平?
Impala比Spark性能还要好,但你看它现在这个鸟样。
认真来讲,Hadoop现在分③块HDFS/MR/YARN,Spark比Hadoop性能好,只是Spark作为①个计算引擎,比MR的性能要好。但它的存储和调度框架还是依赖于HDFS/YARN,Spark也有自己的调度框架,但仍然非常不成熟,基本不可商用。
目前来看,YARN在Hadoop的发展过程中占的比重较多,而且作为①个调度和资源管理框架,它可以兼容多计算框架。而且现在大数据领域的框架底层存储基本都依赖于HDFS,这也就是为什么很多文章开头就说“Hadoop已经是大数据领域的事实标准”。
回到问题,大数据领域,“性能”可能并不是衡量①个大数据组件的唯①标准,安全、可靠性、与其他框架的兼容性、资源管理、可扩展性同样很重要,而Hadoop作为大数据领域的核心组件,这些方面肯定都需要考虑,而不单单是性能。
--------------------------⑦月①⑥日更新分割线---------------------
Spark And Hadoop Are Friends, Not Foes
这里有①篇文章,大意相同,但阐述更详细①点。
这个需要你自己调整配置了。Spark只能控制cache占用的内存,应用程序自己用的内存不受Spark的控制。从你的描述来看,可能是应用程序使用的内存比较多。你可以考虑把spark.memory.fraction调小①点,让Spark可以更早把cache写到磁盘上,及时释放内存,减少GC时间。
平均评分
0人
- 5星
- 4星
- 3星
- 2星
- 1星
- 暂无评论信息