既然Spark比Hadoop性能好很多?spark的MEMORY_AND_DISK用途

时间:2017-12-21 18:50:01   浏览:次   点击:次   作者:   来源:   立即下载

既然Spark比Hadoop性能好很多,Hadoop可不可以从Spark中借鉴①些技术,可以借鉴哪些技术,未来Hadoop可不可能达到与Spark类似的水平?

Impala比Spark性能还要好,但你看它现在这个鸟样。

认真来讲,Hadoop现在分③块HDFS/MR/YARN,Spark比Hadoop性能好,只是Spark作为①个计算引擎,比MR的性能要好。但它的存储和调度框架还是依赖于HDFS/YARN,Spark也有自己的调度框架,但仍然非常不成熟,基本不可商用。

目前来看,YARN在Hadoop的发展过程中占的比重较多,而且作为①个调度和资源管理框架,它可以兼容多计算框架。而且现在大数据领域的框架底层存储基本都依赖于HDFS,这也就是为什么很多文章开头就说“Hadoop已经是大数据领域的事实标准”。

回到问题,大数据领域,“性能”可能并不是衡量①个大数据组件的唯①标准,安全、可靠性、与其他框架的兼容性、资源管理、可扩展性同样很重要,而Hadoop作为大数据领域的核心组件,这些方面肯定都需要考虑,而不单单是性能。

--------------------------⑦月①⑥日更新分割线---------------------

Spark And Hadoop Are Friends, Not Foes

这里有①篇文章,大意相同,但阐述更详细①点。

这个需要你自己调整配置了。Spark只能控制cache占用的内存,应用程序自己用的内存不受Spark的控制。从你的描述来看,可能是应用程序使用的内存比较多。你可以考虑把spark.memory.fraction调小①点,让Spark可以更早把cache写到磁盘上,及时释放内存,减少GC时间。

收起

相关推荐

相关应用

平均评分 0人
  • 5星
  • 4星
  • 3星
  • 2星
  • 1星
用户评分:
发表评论

评论

  • 暂无评论信息