自动化会否消除数据科学领域的职位

时间：2020-08-29 12:52:26来源：互联网

“自动化会否消除数据科学职位?”

我几乎在每次参加的会议上都会问这个问题，它通常来自两个对回答有既定兴趣的人中的一个：首先是现任或有抱负的从业者，他们对自己的未来就业前景感到疑惑。第二部分由刚刚开始数据科学之旅的高管和经理组成。

他们经常听到目标可以根据客户的购物方式确定其是否怀孕，并希望为其数据使用类似的强大工具。他们听到了最新的自动AI供应商宣传，承诺在没有数据科学家的情况下交付Target所做的事情(以及更多!)。我们认为，自动化和更好的数据科学工具不会消除甚至减少数据科学的地位(包括诸如Target故事之类的用例)。它创造了更多的人!

这就是为什么。

了解业务问题是最大的挑战

数据科学中最重要的问题不是选择哪种机器学习算法，也不是如何清除数据。在编写一行代码之前，您就需要问这些问题：您选择什么数据，并对数据选择什么问题?

流行的想象力缺乏(或希望得到的假设)是这些任务所具有的独创性，创造力和商业理解力。我们为什么要关心客户是否怀孕?Target的数据科学家已经在大量早期工作的基础上进行了研究，以了解为什么这是吸引零售商的有利可图的客户群体。哪些数据集可用，我们如何提出这些数据集的可科学检验的问题?

Target的数据科学团队碰巧将婴儿注册数据与购买历史相关联，并且知道如何将其与客户支出相关联。我们如何衡量成功?将非技术要求表达为可以用数据解决的技术问题是最具挑战性的数据科学任务之一，而且可能也是最难完成的任务。没有经验丰富的人来提出这些问题，我们甚至将无法开始数据科学的旅程。

做你的假设

在提出数据科学问题之后，数据科学家需要概述他们的假设。这通常以数据整理，数据清理和功能工程的形式表现出来。众所周知，现实世界的数据很脏，必须做出许多假设以弥合我们拥有的数据与我们要解决的业务或政策问题之间的差距。这些假设还高度依赖于现实世界的知识和业务环境。

在“目标”示例中，数据科学家必须对怀孕的代理变量，分析的现实时限以及适当的对照组进行正确的假设，以进行准确比较。他们几乎肯定必须做出现实的假设，以允许他们丢弃无关的数据并正确地对功能进行规范化。所有这些工作严重取决于人类的判断力。正如最近在机器学习中出现的一系列偏见所看到的那样，将人员从环路中移出可能是危险的。并非偶然的是，它们中的许多都围绕着深度学习算法展开，而深度学习算法却提出了一些最强烈的主张，而这些观点都消除了特征工程学。

因此，尽管核心机器学习的各个部分是自动化的(实际上，我们甚至教导了一些使这些工作流自动化的方法)，但数据处理，数据清理和功能工程(包括数据科学中90%的实际工作)并不能实现。安全地自动化。

历史比喻

历史上有一个明确的先例，表明数据科学不会自动消失。在另一个领域，训练有素的人员正在编写代码，以使计算机执行惊人的壮举。这些人比未接受过该领域培训的其他人有明显的溢价，并且(也许不足为奇)有专门训练此技能的教育计划。导致该领域自动化的经济压力同样巨大，甚至更大。该领域是软件工程。

确实，随着软件工程变得越来越容易，对程序员的需求才刚刚增长。这种矛盾-自动化提高生产力，降低价格并最终提高需求并不是什么新鲜事-我们在软件工程，财务分析和会计等领域一次又一次地看到了这一矛盾。数据科学也不例外，自动化可能会增加对该技能的需求，而不是降低。