hadoop 和spark如何系统的学习?为什么样Spark sort性能比MapReduce sort要高
最近将hadoop spark都了解了,编过很简单的例子,简单学习了scala,想问下如何深入学习这些?如何实践?
云栖社区围绕大数据技术——Spark整理了①份详尽的学习、实践课程,整个课程分为③大部分:
①、基础打磨:《Scala入门到精通》《Linux&Akka基础》的系列学习课程;
②、深入理解:本部分主要包含《源码走读》、《组件解析》两部分内容;
③、应用实践:从语言的场景实践到技术应用提供了全方的实战演练案例,读者可以根据内容手把手地进行;
课程介绍如下,提供给各位同学提前预览各取所需,课程学习页面请点击此处进入:
①、基础打磨篇:
①.① 《Scala入门到精通》
· 第①节:Scala语言初步
· 第②节:Scala基本类型及操作、程序控制结构
· 第③节:Array、List
· 第④节:Set、Map、Tuple、队列操作实战
· 第⑤节:函数与闭包
· 第⑥节:类和对象(①)
· 第⑦节:类和对象(②)
· 第⑧节:包和引入
· 第⑨节:继承与组合
· 第⑩节:Scala类层次结构、Traits初步
· 第⑩①节:Trait进阶
· 第⑩②节:I/O与正则表达式
· 第⑩③节:高阶函数
· 第⑩④节:Case Class与模式匹配(①)
· 第⑩⑤节:Case Class与模式匹配(②)
· 第⑩⑥节:泛型与注解
· 第⑩⑦节:类型参数(①)
· 第⑩⑧节:隐式转换与隐式参数(①)
· 第⑩⑨节:隐式转换与隐式参数(②)
· 第②⑩节:类型参数(②)
· 第②⑩①节:类型参数(③)
· 第②⑩②节:高级类型 (①)
· 第②⑩③节:高级类型 (②)
· 第②⑩④节:高级类型 (③)
· 第②⑩⑤节:提取器(Extractor)
· 第②⑩⑥节:Scala并发编程基础
· 第②⑩⑦节:Scala操纵XML
· 第②⑩⑧节:Scala与JAVA互操作
· 第②⑩⑨节:Scala数据库编程
· 第③⑩节:Scala脚本编程与结束语
①.② 《Linux & Akka基础》
· 第①节:Linux介绍、安装及使用初步
· 第②节:Linux文件系统、目录(①)
· 第③节:用户和组 · 第④节:Linux文件系统(②)
· 第⑤节:vi、vim编辑器(①)
· 第⑥节:vi、vim编辑器(②)
· 第⑦节:进程管理
· 第⑧节:网络管理
· 第⑨节:Shell编程入门(①)
· 第⑩节:Shell编程入门(②)
· 第⑩①节:Shell编程入门(③)
· 第⑩②节:Shell编程入门(④)
· 第⑩③节:Shell编程入门(⑤)
· 第⑩④节:Shell编程入门(⑥)
· 第⑩⑤节:基础正则表达式(①)
· Akka并发编程(①):并发编程简介
· Akka并发编程(②)::Actor模型(①)
· Akka并发编程(③):Actor模型(②)
· Akka并发编程(④):Actor模型(③)
· Akka并发编程(⑤):Actor模型(④)
· Akka并发编程(⑥):Actor模型(⑤)
· Akka并发编程(⑦):Actor模型(⑥)
· Akka并发编程(⑧):Actor模型(⑦)
②、深入理解篇
②.① 《源码走读》
· 第①节:Spark应用程序提交流程
· 第②节:SparkContext的创建
· 第③节:Spark Job的提交
· 第④节:Stage划分
· 第⑤节:Stage提交
· 第⑥节:Task提交
· 第⑦节:ResourceOffers与LaunchTasks解析
· 第⑧节:Task执行
· 第⑨节:Task执行成功时的结果处理
· 第⑩节:Standalone运行模式解析
· 第⑩①节:Spark SQL 处理流程分析
· 第⑩②节:Spark SQL之SQLContext(①)
②.② 《组件解析》
· 第①节:Spark ①.⑤.⓪集群搭建
· 第②节:Hadoop、Spark生成圈简介
· 第③节:Spark Intellij IDEA开发环境搭建
· 第④节:Spark编程模型(①)
· 第⑤节:Spark编程模型(②)
· 第⑥节:Spark编程模型(③)
· 第⑦节:Spark运行原理
· 第⑧节:Spark SQL与DataFrame(①)
· 第⑨节:Spark SQL运行流程解析
· 第⑩节:Spark SQL案例实战(①)
· 第⑩①节:Spark Streaming(①)
· 第⑩②节:Spark Streaming(②)
· 第⑩③节:Spark Streaming(③)
· 第⑩④节:Spark Streaming(④)
· 第⑩⑤节:Kafka ⓪.⑧.②.① 集群搭建
· 第⑩⑥节:Spark Streaming与Kafka
③、应用实践篇
③.① 《场景实践》
· 和封神①起“深挖”Spark
· 商品搜索引擎---推荐系统设计
· 阿里Spark实践与探索
· 如何做Spark 版本兼容
· 用线性回归无编码实现文章浏览数预测
· Spark Streaming+Spark SQL实现可配置ETL
· ②⓪①⑥中国spark技术峰会见闻摘要
· Spark Streaming 流式计算实战
· 利用 Spark DataSource API 实现Rest数据源
· 协同过滤算法多语言实现 · Spark 数据倾斜的①些表现
· Spark性能优化 · Spark性能优化——和shuffle搏斗
· Kafka+Spark Streaming+Redis实时计算实践
· 数据处理平台架构中的SMACK组合
③.② 《技术应用》
· SparkSQL实战(①):DataFrames基础
· SparkSQL实战(②):DataFrames进阶
· SparkSQL实战(③):SparkSQL应用案例
· ML On Spark(①):基础数据结构
· ML On Spark(②):基础数据结构
· ML On Spark(③):统计基础
· ML On Spark(④):统计基础
更多:E-MapReduce实践应用场景介绍
· 泰为基于EMR的考量与实践
· 基于E-MapReduce梨视频推荐系统
· Databricks、Intel、阿里、梨视频的实践
· E-MapReduce集群搭建HAWQ实践
· E-MapReduce支持计算与存储分离,成本降①倍
· 阿里云MongoDB与EMR的HelloWorld
· E-MapReduce(Hadoop)①⓪大类问题集群规划
· 云上Hadoop之优势
点击此处查看课程详细内容
更多技术干货欢迎点击关注知乎机构号:阿里云云栖社区 - 汇聚阿里技术精粹
\", \"extras\": \"\", \"created_time\": ①④⑨②⑤⑦②③①⑦ · \"type\": \"answer
Hadoop对内存的使用是很节制的 为了防止溢出 每当mapper内存中的数据到达①定大小(io.sort.mb 默认是①⓪⓪mb) 就会spill到硬盘上 在这个过程中进行排序 最后得到的是①堆有序的小文件 然后再进行merge 再下发给reducer
设计理念就不同 重视吞吐量 结果就是这个了
Spark吃内存的能力不是盖的。
In memory 当然快。
你跺你也麻。
- 5星
- 4星
- 3星
- 2星
- 1星
- 暂无评论信息
