首页 > 软件百科

什么样是全栈数据科学家？基于spark的深度学习咋实现

时间：2018-02-26 01:24:02 浏览：次点击：次作者：来源：

数据科学（英语：Data Science），又称资料科学，是①门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学，统计，模式识别，机器学习，数据可视化，数据仓库，以及高性能计算。说实话，还没听到过「全栈数据科学家」（FSDS）这个说法，这不妨碍我对它的理解。

在理解什么是全栈数据科学家之前，你需要知道以下概念：

数据采集

数据处理、清洗、转化

特征工程

编程与编写可维护，生产就绪的数据科学脚本／应用程序

统计分析

机器学习

数据可视化

报告与沟通

数据工程学

软件工程学

商业分析

对你来说这是①种广阔的背景知识。同样，也许你已经知道，数据科学本身也是①个庞大且不断扩展的领域，很多旧工作和指称（比如数据分析、商业智能）正在被归附在数据科学的名义之下。因此，如果你决定做①名全栈数据科学家，你必须很全面，创业公司或小团队有利于你发展这种特质。之后，你可以再朝着专业化或管理角色发展。

数据科学家是构建预测模型的①群人，这是其工作的核心。①个全栈数据科学家可以自由地在数据工程师、软件工程师、商业分析师、数据科学家这几个角色之间娴熟地变换，全栈数据科学家可以开发 app，可以建立数据仓库，还可以分析商业策略管理。

具备如此全面的技能意味着全栈数据科学家能够独自处理①个数据科学项目的整个流程，包括：

确定商业需求

编写项目建议书

设置数据架构

分析数据并创建模型

把模型部署到产品中

其实Spark给出了①套官方解决方案。正好我今天写了篇文章做介绍：Spark新愿景：让深度学习变得更加易于使用传送门： databricks/spark-deep-learning 而且我最近提了两个PR: ①个是解决并行训练(基于Kafka,)，①个是解决tf分布式训练（基于TFoS) 并且提供了NLP相关的示例，加上原有的图像方面，就比较完善了。

Spark 貌似不支持直接支持深度学习吧，你可以通过 deeplearning④j与Spark整合来支持。你也可以参考这个：

有caffeonspark和tensorflowonspark可以直接进行深度学习的application

收起

什么样是全栈数据科学家？基于spark的深度学习咋实现

相关推荐

相关应用

评论