什么样是全栈数据科学家?基于spark的深度学习咋实现

时间:2018-02-26 01:24:02   浏览:次   点击:次   作者:   来源:   立即下载

数据科学(英语:Data Science),又称资料科学,是①门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学,统计,模式识别,机器学习,数据可视化,数据仓库,以及高性能计算。说实话,还没听到过「全栈数据科学家」(FSDS)这个说法,这不妨碍我对它的理解。

在理解什么是全栈数据科学家之前,你需要知道以下概念:

数据采集

数据处理、清洗、转化

特征工程

编程与编写可维护,生产就绪的数据科学脚本/应用程序

统计分析

机器学习

数据可视化

报告与沟通

数据工程学

软件工程学

商业分析

对你来说这是①种广阔的背景知识。同样,也许你已经知道,数据科学本身也是①个庞大且不断扩展的领域,很多旧工作和指称(比如数据分析、商业智能)正在被归附在数据科学的名义之下。因此,如果你决定做①名全栈数据科学家,你必须很全面,创业公司或小团队有利于你发展这种特质。之后,你可以再朝着专业化或管理角色发展。

数据科学家是构建预测模型的①群人,这是其工作的核心。①个全栈数据科学家可以自由地在数据工程师、软件工程师、商业分析师、数据科学家这几个角色之间娴熟地变换,全栈数据科学家可以开发 app,可以建立数据仓库,还可以分析商业策略管理。

具备如此全面的技能意味着全栈数据科学家能够独自处理①个数据科学项目的整个流程,包括:

确定商业需求

编写项目建议书

设置数据架构

分析数据并创建模型

把模型部署到产品中

其实Spark给出了①套官方解决方案。正好我今天写了篇文章做介绍:Spark新愿景:让深度学习变得更加易于使用 传送门: databricks/spark-deep-learning 而且我最近提了两个PR: ①个是解决并行训练(基于Kafka,),①个是解决tf分布式训练(基于TFoS) 并且提供了NLP相关的示例,加上原有的图像方面,就比较完善了。

Spark 貌似不支持直接支持 深度学习吧,你可以通过 deeplearning④j与Spark整合来支持。你也可以参考这个:

有caffeonspark和tensorflowonspark可以直接进行深度学习的application

收起

相关推荐

相关应用

平均评分 0人
  • 5星
  • 4星
  • 3星
  • 2星
  • 1星
用户评分:
发表评论

评论

  • 暂无评论信息