首页 > 软件百科

hadoop 和spark如何系统的学习？为什么样Spark sort性能比MapReduce sort要高

时间：2017-12-29 19:06:01 浏览：次点击：次作者：来源：

最近将hadoop spark都了解了，编过很简单的例子，简单学习了scala,想问下如何深入学习这些？如何实践？

云栖社区围绕大数据技术——Spark整理了①份详尽的学习、实践课程，整个课程分为③大部分：

①、基础打磨：《Scala入门到精通》《Linux&Akka基础》的系列学习课程；

②、深入理解：本部分主要包含《源码走读》、《组件解析》两部分内容；

③、应用实践：从语言的场景实践到技术应用提供了全方的实战演练案例，读者可以根据内容手把手地进行；

课程介绍如下，提供给各位同学提前预览各取所需，课程学习页面请点击此处进入：

①、基础打磨篇：

①.① 《Scala入门到精通》

· 第①节：Scala语言初步

· 第②节：Scala基本类型及操作、程序控制结构

· 第③节：Array、List

· 第④节：Set、Map、Tuple、队列操作实战

· 第⑤节：函数与闭包

· 第⑥节：类和对象（①）

· 第⑦节：类和对象（②）

· 第⑧节：包和引入

· 第⑨节：继承与组合

· 第⑩节：Scala类层次结构、Traits初步

· 第⑩①节：Trait进阶

· 第⑩②节：I/O与正则表达式

· 第⑩③节：高阶函数

· 第⑩④节：Case Class与模式匹配（①）

· 第⑩⑤节：Case Class与模式匹配（②）

· 第⑩⑥节：泛型与注解

· 第⑩⑦节：类型参数（①）

· 第⑩⑧节：隐式转换与隐式参数（①）

· 第⑩⑨节：隐式转换与隐式参数（②）

· 第②⑩节：类型参数（②）

· 第②⑩①节：类型参数（③）

· 第②⑩②节：高级类型（①）

· 第②⑩③节：高级类型（②）

· 第②⑩④节：高级类型（③）

· 第②⑩⑤节：提取器（Extractor）

· 第②⑩⑥节：Scala并发编程基础

· 第②⑩⑦节：Scala操纵XML

· 第②⑩⑧节：Scala与JAVA互操作

· 第②⑩⑨节：Scala数据库编程

· 第③⑩节：Scala脚本编程与结束语

①.② 《Linux & Akka基础》

· 第①节：Linux介绍、安装及使用初步

· 第②节：Linux文件系统、目录（①）

· 第③节：用户和组 · 第④节：Linux文件系统（②）

· 第⑤节：vi、vim编辑器（①）

· 第⑥节：vi、vim编辑器（②）

· 第⑦节：进程管理

· 第⑧节：网络管理

· 第⑨节：Shell编程入门（①）

· 第⑩节：Shell编程入门（②）

· 第⑩①节：Shell编程入门（③）

· 第⑩②节：Shell编程入门（④）

· 第⑩③节：Shell编程入门（⑤）

· 第⑩④节：Shell编程入门（⑥）

· 第⑩⑤节：基础正则表达式（①）

· Akka并发编程（①）：并发编程简介

· Akka并发编程（②）：：Actor模型(①）

· Akka并发编程（③）：Actor模型（②）

· Akka并发编程（④）：Actor模型（③）

· Akka并发编程（⑤）：Actor模型（④）

· Akka并发编程（⑥）：Actor模型（⑤）

· Akka并发编程（⑦）：Actor模型（⑥）

· Akka并发编程（⑧）：Actor模型（⑦）

②、深入理解篇

②.① 《源码走读》

· 第①节：Spark应用程序提交流程

· 第②节：SparkContext的创建

· 第③节：Spark Job的提交

· 第④节：Stage划分

· 第⑤节：Stage提交

· 第⑥节：Task提交

· 第⑦节：ResourceOffers与LaunchTasks解析

· 第⑧节：Task执行

· 第⑨节：Task执行成功时的结果处理

· 第⑩节：Standalone运行模式解析

· 第⑩①节：Spark SQL 处理流程分析

· 第⑩②节：Spark SQL之SQLContext（①）

②.② 《组件解析》

· 第①节：Spark ①.⑤.⓪集群搭建

· 第②节：Hadoop、Spark生成圈简介

· 第③节：Spark Intellij IDEA开发环境搭建

· 第④节：Spark编程模型（①)

· 第⑤节：Spark编程模型（②）

· 第⑥节：Spark编程模型（③)

· 第⑦节：Spark运行原理

· 第⑧节：Spark SQL与DataFrame（①）

· 第⑨节：Spark SQL运行流程解析

· 第⑩节：Spark SQL案例实战（①）

· 第⑩①节：Spark Streaming（①）

· 第⑩②节：Spark Streaming（②）

· 第⑩③节：Spark Streaming（③）

· 第⑩④节：Spark Streaming（④）

· 第⑩⑤节：Kafka ⓪.⑧.②.① 集群搭建

· 第⑩⑥节：Spark Streaming与Kafka

③、应用实践篇

③.① 《场景实践》

· 和封神①起“深挖”Spark

· 商品搜索引擎---推荐系统设计

· 阿里Spark实践与探索

· 如何做Spark 版本兼容

· 用线性回归无编码实现文章浏览数预测

· Spark Streaming+Spark SQL实现可配置ETL

· ②⓪①⑥中国spark技术峰会见闻摘要

· Spark Streaming 流式计算实战

· 利用 Spark DataSource API 实现Rest数据源

· 协同过滤算法多语言实现 · Spark 数据倾斜的①些表现

· Spark性能优化 · Spark性能优化——和shuffle搏斗

· Kafka+Spark Streaming+Redis实时计算实践

· 数据处理平台架构中的SMACK组合

③.② 《技术应用》

· SparkSQL实战（①）：DataFrames基础

· SparkSQL实战（②）：DataFrames进阶

· SparkSQL实战（③）：SparkSQL应用案例

· ML On Spark（①）：基础数据结构

· ML On Spark（②）：基础数据结构

· ML On Spark（③）：统计基础

· ML On Spark（④）：统计基础

更多：E-MapReduce实践应用场景介绍

· 泰为基于EMR的考量与实践

· 基于E-MapReduce梨视频推荐系统

· Databricks、Intel、阿里、梨视频的实践

· E-MapReduce集群搭建HAWQ实践

· E-MapReduce支持计算与存储分离,成本降①倍

· 阿里云MongoDB与EMR的HelloWorld

· E-MapReduce(Hadoop)①⓪大类问题集群规划

· 云上Hadoop之优势

点击此处查看课程详细内容

更多技术干货欢迎点击关注知乎机构号：阿里云云栖社区 - 汇聚阿里技术精粹

\", \"extras\": \"\", \"created_time\": ①④⑨②⑤⑦②③①⑦ · \"type\": \"answer

Hadoop对内存的使用是很节制的为了防止溢出每当mapper内存中的数据到达①定大小(io.sort.mb 默认是①⓪⓪mb) 就会spill到硬盘上在这个过程中进行排序最后得到的是①堆有序的小文件然后再进行merge 再下发给reducer

设计理念就不同重视吞吐量结果就是这个了

Spark吃内存的能力不是盖的。

In memory 当然快。

你跺你也麻。

收起

hadoop 和spark如何系统的学习？为什么样Spark sort性能比MapReduce sort要高

相关推荐

相关应用

评论