今天,我们发现AI做什么而不是发明它,有人认为,我们可能知道为什么它突然“学习”了如何在不被教导的情况下做新事物。
喜欢指数的未来?加入我们的Xpotential社区,通过Xpotential University的课程进行未来的证明,阅读有关指数技术和趋势,连接,观看Keynote或浏览我的博客。
越来越多的人工智能(AI)研究人员是我们不再在创新或发明新的AI的观点,而是我们发现了它可以做的事情 - 无论是发现它可以自发地学习数学,勾结,加密自己的交流,以新的语言进行加密,或其他许多发现。两年前,位于旧金山的OpenAI公司的研究人员Yuri Burda和Harri Edwards试图找出获得一种语言模型来进行基本算术所需的内容。
他们想知道有多少个示例添加了两个模型需要查看的示例,然后才能将其添加给他们给它的任何两个数字。起初,事情进展不佳。这些模型记住了他们看到的总和,但未能解决新的总和。
偶然地,伯达(Burda)和爱德华兹(Edwards)留下的一些实验的运行远远超过了他们的意义 - 几天而不是数小时。显示了模型,示例一遍又一遍地总和,超过了研究人员将其称为退出的点。但是当两人终于回来时,他们惊讶地发现实验起作用了。他们训练了一种语言模型来添加两个数字 - 它花了比任何人想象的要花更多的时间。
对正在发生的事情感到好奇,Burda和Edwards与同事合作研究了这一现象。他们发现,在某些情况下,模型似乎无法学习一项任务,然后突然才能得到它,好像灯泡已经打开了。这不是学习应该如何工作的。他们称之为行为。
“这真的很有趣,”蒙特利尔大学和Apple Machine Learning Research的AI研究员Hattie Zhou说,他没有参与这项工作。“我们能否确信模型已经停止学习?因为也许我们还没有接受足够长的培训。”
怪异的行为吸引了更广泛的研究界的想象力。“很多人都有意见,”英国剑桥大学劳罗·兰戈斯科说。“但是我认为到底发生了什么。”
Grokking只是AI研究人员挠头的几种奇怪现象之一。最大的模型,尤其是大型语言模型,似乎以教科书数学的方式表现出来。这突出了一个关于深度学习的非凡事实,即当今的AI繁荣背后的基本技术:由于其所有失控的成功,没人知道它是如何(或原因)。
加州大学圣地亚哥分校的计算机科学家米哈伊尔·贝尔金(Mikhail Belkin)说:“显然,我们并不是完全无知的。”“但是我们的理论分析距离这些模型可以做什么。就像,他们为什么能学习语言?我认为这是非常神秘的。”
现在,最大的模型是如此复杂,以至于研究人员正在研究它们,就像它们是奇怪的自然现象一样,进行了实验并试图解释结果。面对古典统计数据,许多观察结果为预测模型的行为提供了最好的解释。
那你可能会说什么。在过去的几个月中,Google DeepMind在其大多数消费应用程序中都推出了其生成模型。Openai用Sora感到惊讶,这是它令人惊叹的新文本与视频模型。世界各地的企业都在争取满足他们的需求。技术作品还不够吗?
但是,弄清楚深度学习的效果如此之好 - 以及它能做什么 - 不仅仅是一个有趣的科学难题。它也可能是解锁下一代技术并掌握其强大风险的关键。
哈佛大学的计算机科学家Boaz Barak说:“这是令人兴奋的时期。“该领域的许多人经常将其与20世纪初的物理学相提并论。我们有很多我们不完全理解的实验结果,而且经常进行实验会让您感到惊讶。”
大多数惊喜涉及模型可以学会做他们未被展示如何做的事情的方式。这被称为概括,这是机器学习中最基本的思想之一,也是它最大的难题。模型学会完成任务 - 点面,翻译句子,避免行人 - 通过培训特定的示例。然而,他们可以概括,学习以前从未见过的例子来完成这项任务。不知何故,模型不仅记住了他们所看到的模式,而且还提出了使它们将这些模式应用于新案例的规则。有时,与Grokking一样,当我们不期望这样做时,会发生概括。
特别是大型语言模型,例如OpenAI的GPT-4和Google Deepmind的双子座,具有惊人的概括能力。
巴拉克说:“魔术不是模型可以学习英语的数学问题,然后将其推广到英语中的新数学问题,但是该模型可以学习英语的数学问题,然后查看一些法国文学,从一般到解决法语中的数学问题。
几年前周开始学习AI时,她的老师专注于如何而不是为什么的方式感到震惊。
她说:“就像,这是您训练这些模型的方式,然后是结果。”“但是目前尚不清楚为什么这个过程会导致能够做这些令人惊奇的事情的模型。”她想了解更多,但是她被告知没有好的答案:“我的假设是科学家知道他们在做什么。
在过去的十多年中,深度学习的迅速发展来自反复试验,而不是理解。研究人员复制了对他人有用的东西,并根据自己的创新进行了研究。现在,有许多不同的成分可以添加到型号中,还有一本成熟的食谱,其中包含用于使用它们的食谱。
贝尔金说:“人们尝试了这件事,所有这些技巧。”他说:“有些很重要。有些可能不是。它有效,这真是太神奇了。我们的思想因这些事情的强大程度而震惊。”然而,尽管他们的成功,食谱比化学更炼金术:“我们在混合某些食材后在午夜发现了某些咒语,”他说。
问题在于,大语模型时代的AI似乎无视教科书统计。当今最强大的模型非常广泛,具有超过万亿个参数 - 在训练过程中调整的模型中的值。但是统计数据说,随着模型的越来越大,它们应该首先提高性能,但随后变得更糟。这是因为所谓的过度拟合。
当模型对数据集进行培训时,它将尝试将数据拟合到模式。想象图表上绘制的一堆数据点。适合数据的模式可以在该图表上表示为贯穿点的线。训练模型的过程可以被认为是让它找到适合培训数据的行 - 图表上的点已经存在 - 但也适合新数据 - 新点。
直线是一种图案,但它可能不会太准确,缺少一些点。连接每个点的Wiggly线将在培训数据上获得完整的痕迹,但不会概括。发生这种情况时,据说模型会过度拟合其数据。
根据古典统计数据,模型获得的越大,过度拟合就越容易发生。这是因为有更多参数可以使用,模型可以更容易地击中连接每个点的摇摆线条。这表明模型必须概括的模型必须找到的不足和过度拟合之间的甜蜜位置。但这并不是我们对大型模型所看到的。最著名的例子是一种被称为双重下降的现象。
模型的性能通常以其造成的错误数来表示:随着性能的提高,错误率下降(或下降)。几十年来,人们相信错误率下降,然后随着模型的变化而上升:图片是U形曲线,在最低点上具有概括的最佳位置。但是在2018年,贝尔金(Belkin)和他的同事发现,当某些模型变大时,错误率下降,然后又上升 - 然后再次下降(双重下降或W形曲线)。换句话说,大型模型会以某种方式超越那个最佳位置,并推动过度拟合的问题,随着它们变得更大而变得更好。
一年后,巴拉克(Barak)合着了一篇论文,表明双重现象比许多人想象的更普遍。它不仅发生在模型更大时,而且在具有大量培训数据或经过更长培训的模型的模型中发生。这种被称为良性过度拟合的行为仍未完全理解。它提出了有关如何培训模型以充分利用模型的基本问题。
研究人员已经勾勒出了他们认为正在发生的事情的版本。Belkin认为,OCCAM在游戏中的剃须刀效应:适合数据的最简单模式 - 点之间最平稳的曲线 - 通常是最能推广的数据。较大的模型不断改善的原因比看起来更大的模型比较小的曲线更有可能更大的曲线打击:更多的参数意味着在抛弃wiggliest的曲线之后,可以尝试使用更多的曲线。
贝尔金说:“我们的理论似乎解释了它起作用的基础。”“然后人们制作了可以说100种语言的模型,就像,好吧,我们一点也不了解。”他笑着说:“事实证明,我们甚至都没有刮擦表面。”
对于Belkin来说,大型语言模型是一个全新的谜团。这些模型基于变形金刚,Transformers是一种擅长处理数据序列的神经网络,例如句子中的单词。
贝尔金说,变形金刚内部有很多复杂性。但是他认为,他们做的事情或多或少与一个更好地理解的统计结构一样,称为马尔可夫链,该统计结构可根据以前的情况预测下一个项目。但这还不足以解释大型语言模型可以做的一切。贝尔金说:“直到最近,我们认为这应该不起作用。”“这意味着从根本上缺少某些东西。它标识了我们对世界的理解差距。”
贝尔金走得更远。他认为,大型语言模型的语言可能会有一种隐藏的数学模式来利用:“纯粹的猜测,但是为什么不呢?”
他说:“这些事物模型语言可能是历史上最大的发现之一。”“您可以通过使用马尔可夫链预测下一个单词来学习语言 - 这让我震惊。”
研究人员正试图通过一段弄清楚它。由于大型模型太复杂了,无法研究自己,所以Belkin,Barak,Zhou和其他人在较小的(及较旧的)统计模型上进行了实验,这些模型可以更好地理解。在不同条件和各种数据上培训这些代理并观察发生的事情可以洞悉发生的事情。这有助于使新理论脱离地面,但是并不总是清楚这些理论是否也适用于大型模型。毕竟,许多怪异行为都存在于大型模型的复杂性中。
深度学习的理论来了吗?哥伦比亚大学的计算机科学家戴维·胡(David Hsu)是贝尔金(Belkin)在双期纸上的合着者之一,他不会期望很快所有答案。
他说:“我们现在有更好的直觉。”“但是,真正解释了为什么神经网络具有这种出乎意料的行为?我们还没有做到这一点。”
2016年,Google Brain的MIT及其同事的Chiyuan Zhang发表了一篇有影响力的论文,标题为“理解深度学习需要重新思考概括”。五年后的2021年,他们重新发表了论文,称其为“了解深度学习(仍然需要重新思考概括”。”
那2024年呢?
张说:“有点是,否。”“最近取得了很多进展,尽管问题可能比解决的更多问题。”
同时,即使有基本的观察,研究人员仍继续搏斗。去年12月,兰戈斯科(Langosco)和他的同事们在AI冠军会议上发表了一篇论文,他们声称Grokking和Double Descent实际上是同一现象的各个方面。
兰戈斯科说:“你是他们的眼球,它们看起来有点相似。”他认为,对正在发生的事情的解释应该两者兼而有之。
在同一次会议上,在剑桥大学研究统计数据的艾丽西亚·库斯(Alicia Curth)及其同事认为,双重下降实际上是一种幻想。
Curth说:“现代机器学习是某种魔术,违反了我们迄今为止已经建立的所有法律,这对我来说并不是很好。”她的团队认为,由于测量了模型的复杂性的方式,因此出现了双重下行现象 - 模型的性能似乎更好,然后更糟,然后再变得更好。
贝尔金(Belkin)和他的同事使用模型大小(参数数量)作为衡量复杂性的量度。但是Curth和她的同事发现,参数的数量可能并不是复杂性的良好替代方案,因为添加参数有时会使模型更加复杂,有时使其变得更少。这取决于值是什么,在训练过程中如何使用以及它们如何与他人互动 - 其中大部分隐藏在模型中。
Curth说:“我们的收获是,并非所有模型参数都是平等的。”
简而言之,如果您对复杂性使用不同的措施,则大型模型可能符合经典统计信息。Curth说,这并不是说当模型变大时会发生什么,我们不了解很多。但是我们已经拥有所有数学来解释它。
的确,这样的辩论可以陷入杂草。为什么AI模型是否受经典统计数据为基础?
一个答案是,更好的理论理解将有助于建立更好的AI或使其更有效。目前,进展很快,但无法预测。Openai的GPT-4可以做的许多事情,即使对于那些制造的人来说,也令人惊讶。研究人员仍在争论它可以和无法实现的目标。
贝尔金说:“没有某种基本理论,很难知道我们可以从这些事物中期待什么。”
巴拉克同意。他说:“即使我们拥有模型,即使事后看来,也不是要确切地说出为什么某些功能在这样做时也不是一件直接的。”
这不仅与管理进度有关,还与预期风险有关。许多研究深度学习理论的研究人员都是出于对未来模型的安全问题的促进。
Langosco说:“我们不知道GPT-5在训练并测试它之前将具有什么功能。”“现在可能是一个中型问题,但是随着模型变得越来越强大,它将成为一个非常大的问题。”
巴拉克(Barak)在Openai的超级对象团队中工作,该团队由该公司的首席科学家Ilya Sutskever建立,以弄清楚如何阻止假设的超级智能流氓。
他说:“我对获得保证非常感兴趣。”“如果您可以做令人惊奇的事情,但是您无法真正控制它,那么它并不是太惊人的。
但是在所有之下,也面临着一个宏伟的科学挑战。巴拉克说:“肯定是我们这个时代的伟大奥秘之一。”
他说:“我们是一门非常婴儿的科学。”“我对本月最兴奋的问题可能与我下个月最兴奋的问题不同。我们仍在发现事情。我们非常需要尝试并感到惊讶。”

