深度学习领域专家的崛起

Jeremy Howard
2023-12-22 19:56:45
291
欧易OKX
全球三大交易所之一,注册领500 USDT数币盲盒!

Jeremy Howard是一名人工智能研究员,也是fast.ai的联合创始人,fast.ai是一个非专家学习人工智能和机器学习的平台。在创办fast.ai之前,他创立了多家公司,包括FastMail和将深度学习应用于医疗领域的先驱Enlitic,并担任机器学习竞赛平台Kaggle的总裁兼首席科学家。

在这次采访中,霍华德讨论了现在没有专业研究实验室博士学位的人可以建立和使用深度学习模型,这对不同行业甚至全球地区意味着什么。在这个大伞下的其他主题中,他分享了他对如何最好地跟上最先进技术的想法,将工程作为一种新技能,以及Codex等代码生成系统的利弊。


未来:在过去几年快速运行.ai之后,与几年前知识渊博的人还是独角兽相比,有这么多人熟悉深度学习的基本概念,你看到了什么影响?

杰里米·霍华德:当我们开始fast.ai时,基本上有五个重要的大学研究实验室致力于深度学习——而唯一知道如何利用深度学习做任何事情的人是在这五个实验室工作的人。总的来说,代码没有被发布,更不用说数据了。甚至这些论文也没有公布如何在实践中发挥作用的细节,部分原因是学术机构不太关心实际实施。它非常注重理论。

所以当我们开始的时候,这是一个非常推测性的问题,“没有博士学位,有可能进行世界级的深度学习吗?”。我们现在知道答案是肯定的;我们在第一道菜中就展示了这一点。我们的第一批校友继续使用深度学习创建专利,使用深度学习建立公司,并使用深度学习在顶级场所发表文章。

我认为你的问题是正确的,即当领域专家成为有效的深度学习从业者时会发生什么?这就是我们所看到的最有趣的事情。一般来说,最好的创业公司是那些个人渴望创业的人建立的。他们曾经是招聘人员,所以他们正在做一家招聘初创公司,或者他们曾经是一名律师助理,所以他们在做一家法律初创公司,等等。他们说,“哦,我讨厌我的工作。现在我知道了深度学习,我知道我几乎可以自动化整个过程。”

我们的许多学生也在攻读或已经攻读博士学位,但不是数学或计算机科学;相反,他们在化学信息学、蛋白质组学、数据新闻学或其他领域做这些工作。我们经常发现,他们能够将研究提升到一个全新的水平。例如,我们第一次开始看到一些公共图书馆材料的大型数据库和数据公司开始出现在互联网上。图书馆学领域的一些人现在正在做一些以前从未想过他们可以做那种规模的事情。但突然间,这就像是,“哦,天哪,看看当你把图书馆作为一个东西来分析时会发生什么。”

我在一个畜牧业会议上做了一个演讲,当时每个人都在谈论深度学习。对我来说,这确实是一个不明显的用法,但对他们来说,这是迄今为止最明显的用法。人们正在使用它来解决现实世界中的问题,在现实世界的约束下使用现实世界的数据。

根据我过去几年的经验,深度学习似乎可以应用于几乎每个行业——不是每个行业的每个部分,而是几乎每个行业的某些部分。

我们认识了一个人,他在疟疾诊断方面做了很多有趣的事情,正如你所能想象的,这并不是旧金山人试图解决的首要问题。

知识库的倒置——深度学习现在是对领域专业知识的补充——似乎可以改变理论和应用之间的平衡。

是的,你可以看到这种情况的发生。深度学习时代早期的一件大事是谷歌大脑所做的工作,他们分析了许多YouTube视频,发现猫是许多视频中的一个潜在因素。他们的模型学会了识别猫,因为它看到了很多猫。这是一项非常有趣的工作,但没有人离开并在此基础上建立公司。

人们正在构建的东西——同样是有用的,但在某些领域——比如谷歌和苹果的图片照片搜索很快就变得很好,因为你实际上可以搜索照片中的东西。这真的很有帮助。这就是每个人都在做的事情——要么是非常抽象的东西,要么是真实的第一世界问题。这没什么错,但还有很多其他事情需要做。

因此,几年后,当我查看完成我们课程的人的人口统计数据时,我感到非常激动,我发现美国以外最大的城市之一是拉各斯(尼日利亚首都)。我觉得这真的很棒,因为这是一个以前没有进行深度学习的社区。在第一门课上,我真的问过人们:“这里有来自非洲的人吗?”我想有一个来自象牙海岸的家伙,他不得不把图书馆里的东西烧成CD-ROM,因为他们没有足够的互联网连接。所以它真的增长得很快。

然后这很好,因为我们开始让来自乌干达、肯尼亚和尼日利亚的一群人飞到旧金山亲自参加课程,并相互了解。例如,我们认识了一个人,他在疟疾诊断方面做了很多有趣的事情,正如你所能想象的,这并不是旧金山人试图解决的首要问题。

在我看来,在5%的互联网上训练16种不同的大型语言模型,就像有16根水管进入你的房子,16组电缆进入你的家。

对于像你这样从深度学习项目毕业的人来说,平均职业道路是什么样子的?

它是如此多样化。与早期相比,它确实发生了很大变化,当时只是这种超早期采用者的心态——这些人主要是企业家、博士和早期博士后,他们只是喜欢前沿研究和尝试新事物。不仅仅是早期采用者,还有那些试图赶上或跟上行业发展方向的人。

如今,很多人会说,“哦,天哪,我觉得深度学习开始破坏我所在行业的专业知识。人们正在做一些我甚至无法想象的深度学习,我不想错过。”有些人正在向前看,他们更像,“嗯,没有人真正在我的行业中使用深度学习,但我无法想象这是一个不会受到影响的行业,所以我想成为第一个。”

有些人肯定对他们想要建立的公司有想法。

我们得到的另一件事是,公司派出了一批研究或工程团队来学习这门课程,因为他们觉得这是他们应该具备的企业能力。它对现在人们可以玩的在线API特别有帮助——Codex或DALL-E或其他什么——并有一种感觉,“哦,这有点像我在工作中做的事情,但如果我能以这些方式调整它,那就有点不同了。”

然而,这些模型也有不幸的副作用,可能会增加人们的倾向,让他们觉得人工智能创新只适用于大公司,超出了他们的能力。他们可能会选择成为这项技术的被动消费者,因为他们不相信自己有任何能力亲自构建比谷歌或OpenAI可能构建的更好的东西。

一个决定你是否喜欢电影的模型和一个可以生成俳句的模型将有98%的相同。我们真的需要在互联网上从头开始训练一个巨大的模型,这是非常非常罕见的。

即使是这样——如果你不能超越OpenAI或谷歌——当然也有办法利用他们所做的,API可以访问非常强大的模型,对吧?

首先要说的是,这不是真的,至少在某种普遍意义上不是。现在正在进行的人工智能训练有一定的分歧:有谷歌和OpenAI方面,这一切都是为了创建尽可能通用的模型,而且几乎总是,这些研究人员的脑海中有一个明确的目标,那就是获得AGI。我不评论这是好是坏;它肯定会为我们这些普通人带来有用的工件,所以这很好。

然而,有一条完全不同的道路,几乎是我们所有学生都会走的道路,那就是:“我如何才能以尽可能务实的方式解决社区中人们的现实问题?”而且,这两种方法、两个数据集和两种技术之间的重叠比你想象的要小得多。

在我的世界里,我们基本上从不从头开始训练模特。它总是在微调。所以我们肯定会利用大人物的工作,但它总是免费提供,可下载的模型。像BigScience的开源大型语言模型这样的东西对此非常有帮助。

然而,他们可能会落后于大人物6到12个月,直到我们找到更民主的方式。在我看来,在5%的互联网上训练16种不同的大型语言模型,就像有16根水管进入你的房子,16组电缆进入你的家。感觉它应该更像是一个公共事业。有竞争是很好的,但如果有更好的合作也会很好,所以我们不必浪费时间做同样的事情。

所以,是的,为了我们的特殊目的,我们最终对其他人建立的模型进行了微调。这有点像人类基因组和猴子基因组几乎完全相同,除了这里和那里的百分之几,这实际上产生了很大的不同。神经网络也是如此:一个决定你是否喜欢电影的模型和一个可以生成俳句的模型将有98%的相同之处,因为其中大部分都是关于理解世界、理解语言和其他东西。我们真的需要在互联网上从头开始训练一个巨大的模型,这是非常非常罕见的。

这就是为什么你绝对可以与谷歌和OpenAI竞争——因为它们可能根本不在你的领域。在过去的100年里,如果你试图创造一些东西来自动化律师助理的工作,或者帮助制定抗灾计划,或者更好地理解性别语言,或者其他什么,你不是在与谷歌竞争,而是在与你所在领域的利基市场竞争。

现在有一项重要的编码技能,那就是知道如何更快。通过非常善于提出正确的法典评论。对很多人来说,这可能是一件比真正擅长编码更有价值、更直接的事情。

跟上人工智能领域的所有进步有多重要,尤其是当你在较小规模上使用它时?

没有人能跟上所有的进步。你必须跟上一些进步,但我们现在使用的实际技术变化非常缓慢。2017年的fast.ai课程和2018年的fast.ai课程之间的差异很大,2018年和2019年的课程之间的差距很大。如今,几年内几乎没有变化。

我们认为真正重要的东西,比如变压器架构的兴起,实际上已经有几年的历史了,主要是一堆夹在中间的、简单的前馈神经网络层和一些点积。这很好,但对于那些想理解它的人来说,他们已经理解了对流网、递归网和基本的多层感知器,这就像是几个小时的工作。

过去几年发生的一件大事是,越来越多的人开始了解如何有效地训练模型的实际方面。例如,DeepMind最近发布了一篇论文,该论文基本上表明,所有语言模型的效率都远远低于应有的水平,实际上是因为它们没有做一些基本的事情。脸书——特别是一位脸书实习生是这篇论文的主要作者——建立了一个名为ConvNeXt的东西,基本上是在说,“如果我们采用一个正常的卷积神经网络,并进行大家都知道的明显调整,会发生什么。”它们基本上是现在最先进的图像模型。

所以,是的,了解如何建立良好的深度学习模型的基本知识远没有看起来那么困难。当然,你不必阅读该领域的每一篇论文。尤其是在这一点上,现在事情进展得不那么快了。

但我确实认为,广泛了解是有用的,而不仅仅是对自己的特定领域。假设你是一个计算机视觉人,擅长NLP、协作过滤和表格分析也有很大帮助——反之亦然,因为这些群体之间没有足够的异花授粉。有时,有人会窥探另一个领域,窃取其中的一些想法,并取得突破性的结果。

这正是我四五年前对ULMFiT所做的。我说,“让我们将所有基本的计算机视觉迁移学习技术应用于NLP”,并以英里为单位获得了最先进的结果。OpenAI的研究人员也做了类似的事情,但用转换器取代了我的RNN,并将其放大,这就变成了GPT。我们都知道这是怎么回事。

了解如何建立良好的深度学习模型的基本知识并不像看上去那么困难。当然,你不必阅读该领域的每一篇论文。

你已经提到,在过去的三到六个月里,我们看到了人工智能的阶梯函数转变。你能详细说明一下吗?

实际上,我把它称为钩子,而不是阶跃函数。我认为我们正处于指数曲线上,你可以不时地注意到,事情似乎真的以一种明显的方式加速了。我们所要做的是,在大量文本和图像上训练的预训练模型现在可以以相当普遍的方式完成令人印象深刻的一次或几次拍摄的事情,部分原因是在过去的几个月里,人们更好地理解了即时工程。从本质上讲,知道如何提出正确的问题——“解释你的推理”这类循序渐进的提示。

我们发现,这些模型实际上能够做很多学者一直告诉我们的事情,这些事情在对世界的综合理解和逐步推理方面是不可能的。很多人一直在说,“哦,你必须使用符号技术;神经网络和深度学习永远不会实现。”事实证明,它们确实实现了。我认为,当我们都能看到它可以做人们声称永远做不到的事情时,这会让我们更加大胆地尝试用它们做更多的事情。

这让我想起了我第一次在网上看到视频,我记得当时我给妈妈看了一段视频,因为这是一段理疗视频,她是一名理疗师。这是一个在你肩膀上进行关节活动训练的视频,我认为它是128乘128像素。它是黑色和白色的,高度压缩,可能有3或4秒长。我非常兴奋,我对妈妈说:“哇,看看这个:网上的视频!”当然,她一点也不兴奋。她说:“这有什么用?这是我见过的最没有意义的事情。”

当然,我在想,有一天这将是一个一千乘一千像素,每秒60帧,全彩色,美丽的视频。证据就在那里,现在它只是在等待其他人赶上。

所以我认为,当人们在早期看到深度学习中的低质量图像时,并没有太多的兴奋,因为大多数人没有意识到技术的规模是这样的。现在,我们实际上可以制作出高质量的全彩图像,这些图像看起来比我们几乎任何人都能想象或拍摄的要好得多,人们不需要任何想象力。他们可以看到现在正在做的事情非常令人印象深刻。我认为这有很大的不同。

我觉得HCI是我所见过的几乎每个深度学习项目中最大的缺失。如果我在HCI,我希望我的整个领域都专注于我们如何与深度学习算法交互的问题。

即时工程的想法——如果不是作为一种全新的职业,而是至少作为一种新的技能——实际上真的很有趣。

是的,我很不擅长。例如,DALL-E真的不知道如何正确地写文本,这不会是一个问题,除非它喜欢把文本放在所有血腥的图像中。所以总是有这些随机的符号,我一辈子都想不出如何想出一个没有文本的提示。然后,有时,我只是在这里或那里随机更改一个单词,突然之间,它们都没有文本了。这有一些诀窍,我还没有完全弄明白。

此外,例如,现在有一项重要的编码技能,那就是知道如何更快地进行编码——特别是如果你不是一个特别好的编码者——通过非常善于提出正确的Codex注释,让它为你生成内容。知道它会犯什么样的错误,擅长什么样的事情,不擅长什么样,知道如何让它为它为你构建的东西创建一个测试。

对很多人来说,这可能是一件比真正擅长编码更有价值、更直接的事情。

特别是关于Codex,你对机器生成代码的想法有什么想法?

事实上,当GitHub Copilot问世时,我就写了一篇博客。当时,我想,“哇,这真的很酷,令人印象深刻,但我不太确定它有多有用。”我仍然不确定。

一个主要原因是,我想我们都知道深度学习模型不知道它们是对是错。自从我回顾了Codex的第一个版本以来,它已经改进了很多,但它仍然写了很多错误的代码。此外,它编写详细的代码,因为它生成的是平均代码。对我来说,把普通的代码变成我喜欢的、我知道是正确的代码比从头开始写要慢得多——至少在我熟悉的语言中是这样。

但我觉得这里有一个完整的人机界面(HCI)问题,我觉得HCI是我见过的几乎每个深度学习项目中最大的缺失部分:几乎从来没有完全取代人类。因此,我们正在与这些算法合作。如果我在HCI,我希望我的整个领域都专注于我们如何与深度学习算法交互的问题。因为我们已经学习了几十年如何与图形用户界面、命令行界面和web界面交互,但这是一件完全不同的事情。

我不知道作为一名程序员,我如何最好地与Codex这样的东西进行交互。我敢打赌,在每个领域都有非常强大的方法可以做到这一点——创建接口和绑定数据,构建算法等等——但我不知道这些是什么。

    Jeremy Howard是一位研究科学家,也是fast.ai的联合创始人。他之前创立了Enlitic和FastMail等公司,并担任Kaggle的总裁兼首席科学家。关注推特网站Derrick Harris是a16z的编辑合作伙伴,专注于未来的企业和人工智能报道。关注Twitter
Chaincores提醒:本文不构成投资建议,请广大读者理性看待区块链,切实提高风险意识,警惕各类虚拟代币发行与炒作,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况,及遵守所在国家和地区的相关法律法规。
热门币种
币种
价格
24H涨跌幅
暂无数据
更多热门币种
最新币种
币种
价格
24H涨跌幅
暂无数据
更多最新币种