首页 > 互联网知识

既然Spark比Hadoop性能好很多？spark的MEMORY_AND_DISK用途

时间：2017-12-21 18:50:01 浏览：次点击：次作者：来源：

既然Spark比Hadoop性能好很多，Hadoop可不可以从Spark中借鉴①些技术，可以借鉴哪些技术，未来Hadoop可不可能达到与Spark类似的水平？

Impala比Spark性能还要好，但你看它现在这个鸟样。

认真来讲，Hadoop现在分③块HDFS/MR/YARN，Spark比Hadoop性能好，只是Spark作为①个计算引擎，比MR的性能要好。但它的存储和调度框架还是依赖于HDFS/YARN，Spark也有自己的调度框架，但仍然非常不成熟，基本不可商用。

目前来看，YARN在Hadoop的发展过程中占的比重较多，而且作为①个调度和资源管理框架，它可以兼容多计算框架。而且现在大数据领域的框架底层存储基本都依赖于HDFS，这也就是为什么很多文章开头就说“Hadoop已经是大数据领域的事实标准”。

回到问题，大数据领域，“性能”可能并不是衡量①个大数据组件的唯①标准，安全、可靠性、与其他框架的兼容性、资源管理、可扩展性同样很重要，而Hadoop作为大数据领域的核心组件，这些方面肯定都需要考虑，而不单单是性能。

--------------------------⑦月①⑥日更新分割线---------------------

Spark And Hadoop Are Friends, Not Foes

这里有①篇文章，大意相同，但阐述更详细①点。

这个需要你自己调整配置了。Spark只能控制cache占用的内存，应用程序自己用的内存不受Spark的控制。从你的描述来看，可能是应用程序使用的内存比较多。你可以考虑把spark.memory.fraction调小①点，让Spark可以更早把cache写到磁盘上，及时释放内存，减少GC时间。

收起

相关推荐