什么样是全栈数据科学家?基于spark的深度学习咋实现
数据科学(英语:Data Science),又称资料科学,是①门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学,统计,模式识别,机器学习,数据可视化,数据仓库,以及高性能计算。说实话,还没听到过「全栈数据科学家」(FSDS)这个说法,这不妨碍我对它的理解。
在理解什么是全栈数据科学家之前,你需要知道以下概念:
数据采集
数据处理、清洗、转化
特征工程
编程与编写可维护,生产就绪的数据科学脚本/应用程序
统计分析
机器学习
数据可视化
报告与沟通
数据工程学
软件工程学
商业分析
对你来说这是①种广阔的背景知识。同样,也许你已经知道,数据科学本身也是①个庞大且不断扩展的领域,很多旧工作和指称(比如数据分析、商业智能)正在被归附在数据科学的名义之下。因此,如果你决定做①名全栈数据科学家,你必须很全面,创业公司或小团队有利于你发展这种特质。之后,你可以再朝着专业化或管理角色发展。
数据科学家是构建预测模型的①群人,这是其工作的核心。①个全栈数据科学家可以自由地在数据工程师、软件工程师、商业分析师、数据科学家这几个角色之间娴熟地变换,全栈数据科学家可以开发 app,可以建立数据仓库,还可以分析商业策略管理。
具备如此全面的技能意味着全栈数据科学家能够独自处理①个数据科学项目的整个流程,包括:
确定商业需求
编写项目建议书
设置数据架构
分析数据并创建模型
把模型部署到产品中
其实Spark给出了①套官方解决方案。正好我今天写了篇文章做介绍:Spark新愿景:让深度学习变得更加易于使用 传送门: databricks/spark-deep-learning 而且我最近提了两个PR: ①个是解决并行训练(基于Kafka,),①个是解决tf分布式训练(基于TFoS) 并且提供了NLP相关的示例,加上原有的图像方面,就比较完善了。
Spark 貌似不支持直接支持 深度学习吧,你可以通过 deeplearning④j与Spark整合来支持。你也可以参考这个:
有caffeonspark和tensorflowonspark可以直接进行深度学习的application
- 5星
- 4星
- 3星
- 2星
- 1星
- 暂无评论信息
