• 周一. 5 月 27th, 2024

中国有机会做出自己的 ChatGPT 吗

整理 明明如月 责编 屠敏

出品 CSDN(ID:CSDNnews)

ChatGPT 风靡全球,引得无数大厂竞折腰。在过去六个月间,究竟是什么让 ChatGPT 于一夕之间爆红?其背后蕴藏哪些技术实现?如果想要复刻 ChatGPT 的成功,又需要满足哪些条件?中国有机会做出自己的 ChatGPT 吗?我们距离通用人工智能(AGI)还有多远?

怀揣着种种疑问,在最新的一期《开谈》栏目中,我们邀请到了长期耕耘于知识图谱、自然语言领域的 360 人工智能算法专家的刘焕勇,同济大学百人计划专家、特聘研究员、博士生导师王昊奋,达观数据副总裁、高级工程师王文广,齐聚线上,围绕 ChatGPT 这一现象级应用,进行了深入探讨,也希望通过这一场酣畅淋漓的分享,为身处在 AI 新时代中的工程师、开发者带来一些思考。

ChatGPT 会不会产生自我意识?

王文广:在这种趋势下,ChatGPT 是否会产生自我意识?

刘焕勇:关于意识这个问题,有一篇来自一个国外的学术机构的很火的文章。该文章认为,语言模型已经具备了意识。

但是,在回答这个问题之前,我们需要先定义什么是意识,对于人而言,它可以感知周围的事物并进行思考。然而,像这种语言模型,虽然在现象级的意识表现上接近,但从本质上来说,它只是一个模仿人类语言的模型。

在生产过程中,它只是在根据给定的语料逐词生成文本。虽然它内部使用了技术搜索算法,但它仍然停留在语言概率性问题的层面。因此,与我们真正意义上的意识相比,它仍有很大的差距。

王昊奋:首先,关于“意识”,行业并没有一个明确定义,因为这个问题涉及到多个学科的交叉。

目前,人工智能是以数据驱动为主的,而深度学习则是当前人工智能时代的主要技术。除此之外,神经科学和认知科学等学科也在探讨意识的机理和基础理论,但是实践和实验远远领先于理论,因此我们看到的更多是现象。虽然我们不能下结论说这些现象就代表了 ChatGPT 已经具有意识,但是对于探索意识这个问题仍然非常有意义。

在人工智能方面,即使是无监督学习也可能引发某种形式的智能体或触发意识的迸发,从而实现通用人工智能(AGI)。对于大型语言模型的出现,它的基础是简单的自监督任务,通过预测下一个 token 或者下一个词的方式来不断地进行自回归模型训练。这种模型可以从互联网上获得大量的语料库,包括各种代码。这种简单统一的自监督范式使得这个模型可以完成大量数据的训练,这是向前迈出的一步,相比之前非常依赖监督的技术来说进步非常显著。

其次,需要探讨意识是怎样形成的,GPT 里面用的是 alignment,这就用到了大规模的强化学习,包括本身的奖励评分和策略优化的算法。如果大家有机会用到 New Bing 你就会发现它在所谓的观察方面更加出色。无监督学习或自监督学习,打下了很强的基础,强化学习面对外部环境的反馈,和人交互的时候,更加拟人化,并形成各种人设和表现。这是因为它具有上下文理解的能力,可以刻画非常长距离的上下文。

在这个过程中,GPT 模型的变化会随着不同的输入和反馈而发生变化。从观察来看,它是一个无监督或自监督的基础基座,加上强化学习优化后好像具有了一定的意识。但是,这种意识是如何形成的还需要进一步研究,需要脑科学和其他科学家的帮助来解读和揭示其背后的真正可解解释。与此同时,GPT 模型基于 2017 年谷歌的 “Attention is all you need” 的 Transformer 模型,其多头自注意机制和跨层协同对应到归纳、复制、挖掘各种模式、改写等能力,这些能力可能让其产生类似于涌现的意识。但目前这方面的研究还相对初期,需要更多地探究和解释。

因此,我们还需要更多的研究来了解什么是意识,以及 GPT 模型是否有意识。

强化学习和大模型结合如何擦出更多火花?

王文广:大规模强化学习说起来很容易,但是做起来非常难。强化学习上一次获得较大关注还是在 AlphaGo 那会。AlphaGo 是基于强化学习和围棋规则的输入,通过自我对弈不断学习成长,最终演变成AlphaZero,能够击败全世界最顶尖的围棋选手的 AI 系统。说明强化学习非常强大,但是在自然语言处理方面以往的研究很多,但是真正发挥效果的不多。但是这次 ChatGPT 出来以后,人们发现强化学习和大模型结合起来,能够产生非常惊艳的效果。

这里面有没有一些值得学习的点和未来的研究方向是什么?

王昊奋:强化学习是人工智能中的一个分支,相较于传统的有监督学习和无监督学习更为复杂。在强化学习的过程中,需要定义智能体、环境以及奖励等概念,这也是训练强化学习模型的难点。强化学习在游戏领域得到了广泛应用,例如象棋、德扑、麻将等等,还有一些游戏公司使用强化学习模型来做决策或协同。然而,对于非游戏领域的应用,如何评价模型的回复好坏是一个挑战,因为场景相对复杂、主观性较强。为了解决这个问题,需要建立一个评价模型,并且该评价模型依赖于大量高质量的训练数据。虽然 ChatGPT 在技术细节上没有公开,但是可以参考其前身 InstructGPT。

关于问答语料的奖励函数模型,有许多需要注意的细节。首先,可以参考之前的一个变种版本—— InstructGPT,这个过程中有很多工作,包括对奖励模型中分数或奖励函数的相关性、流畅度、安全性等指标的控制。由于生成模型本身具有一定的随机性,可以通过调整温度等参数获得多个结果进行排序,但其排序结果的一致性和打分需要依赖于受训练过的人和相关的标注规范。

然而,在过去的训练中,这些方面的工作做得不够好,导致了一些问题的出现。例如,由于暴露偏见的问题,一些策略可能只是局部最优解,难以训练出一个好的策略,很容易训练出不好的策略,回答特别机械或者胡说八道。此外,在保持混淆度低、相关性好的同时,涉及到的一些敏感问题使得模型更难训练。从算法、数据标注以及工程等方面,这个模型都需要做出很多突破。虽然它使用的技术不是最新的,但它善用了以前的强化学习技术,在很多方面都取得了成功。因此,我们需要从中思考并借鉴相关的经验。

刘焕勇:强化学习是一个通过奖惩机制不断试错的过程,它的应用在棋牌游戏 AI 等领域已经有了一定的成果。

不过,强化学习目前还存在两个主要问题:

其一是难以训练,即使使用 GitHub 上面代码进行训练,都很难收敛。

其二是数据标注的质量问题,包括标签的设定和数值等方面。

为了解决这些问题,像 OpenAI 这样的公司雇佣廉价的非洲劳动力来标注数据。目前 OpenAI 精确的数据标注量还没有公开,我们预估这个量应该会很大。对于国内的相关研究人员来说,如果使用强化学习进行算法研究时,也会面临这些问题。尤其是随着强化学习的代码公开,门槛降低,各大公司将竞争奖励机制的数据标注和定义规范,以及评估标注数据的质量等方面。因此,强化学习在未来的发展中仍需要解决这些问题。

中国谁最有希望优先做出最接近 ChatGPT 的产品?

王文广:做出 ChatGPT 有些难度,但是要引领一个技术,要在创新层面走出一条道路,就对团队的要求非常高,就会难上加难。那么,中国谁最有希望优先做出最接近 ChatGPT 的产品?

王昊奋:国内有多家公司都在研发类似 ChatGPT 的产品。百度 3 月份也推出自家版 ChatGPT,成为国内首个推出该产品的公司。百度由于其搜索业务积累了大量数据,对用户行为也有深入了解,正在做文心大模型且已经有了飞桨 PaddlePaddle 等基础框架,因此推出类 ChatGPT 的产品具备一定的基础条件。当然和百度这种情况类似的还有很多,只是目前还处在静默期,都在努力去做出这样一款产品。

我们需要走出中国特色。因为 ChatGPT 并不完美,也存在一些如准确性和真实性等方面的缺陷,这也是为什么微软急于将其与产品(如 Bing)相结合的原因。在行业细分太细的情况下,ChatGPT 可能存在一些难以判断的问题,因此各行各业都在努力结合自己的特点来开发相应版本的 ChatGPT。例如,网易即将推出某款游戏试水其 ChatGPT,司法、金融和医疗等领域也都在研发相应的版本的 ChatGPT。但同时,抄作业容易,抄完作业后如何做变革,如何做出一个具有垂域特点的 ChatGPT,由于 OpenAI 或者说全世界没有给出一个标准的解法,需要根据以往的经验结合前面讲到的数据、算法、工程、产品和运营,让这个飞轮转起来,才能看到很多的东西。

从 OpenAI 的角度来看,ChatGPT 并没有一个明确的商业模式,而对于商业公司来说,盈利模式是必须要考虑的问题。这也是谷歌等公司无法完全放弃搜索和广告等业务的原因之一。像谷歌的 Bard 出来之后,大家对谷歌的宽容度并不高,都认为谷歌应该可以做得更好,怎么会出现这种错误。其实这种错误 ChatGPT 也会犯。如果国内一些巨头公司做出来之后也会面临相似的问题。在已经出现了像 ChatGPT 这种比较难超越的标杆之后,国内巨头该怎么做也是一个值得思考的问题。

当然,ChatGPT 的出现也面临着一些挑战。首先,训练一个大型的人工智能模型需要耗费大量的时间、资源和资金。此外,运营这一技术也需要巨大的投资。据悉,每一条查询的成本约为一美分,这也意味着需要一定的优化才能实现盈利。

在一个 SaaS 的商业模式下,利润是至关重要的。创业者需要通过各种手段来确保自己的产品能够带来一定的利润。因此,除了技术问题,还需要考虑其他非技术因素对于商业模式的影响。

如何确保自己的产品不仅仅是一个技术问题,还涉及到很多非技术的因素。除了抄作业之外,创业者需要进行微创新和开创性的探索,以便在市场上占据一席之地。这些探索的过程可能需要自己去不断挑战和探索,后面一定会有一些经验甚至是最佳实践产出。或许很多商业公司不愿意披露这些信息,但是我相信一定会有一些开源机构或科研机构会将这些信息陆陆续续揭露给大众,以便更多人可以进入这个领域,从而产出一些新的范式上的变革。

大家要以发展的眼光看待这件事,貌似 OpenAI 好像抢占了先机,其实就像冰山一样暗流涌动,国内很多科研机构和大厂都在开展相关工作,说不定什么时候一家就会比另外一家更好。如果这个市场足够大,也不可能出现一家独大,后面一定会出现百花齐放、百家争鸣的现象。

刘焕勇:大家都有机会,而且 ChatGPT 可能会有很多版本,如很多垂类的版本,这样大家做出来的机会更多。只要大家有意愿,并且能够坚持解决上述问题,都有机会做出来。现在谈论“谁最有希望优先做出最接近 ChatGPT 的产品?”为时过早,现在是一个大变革的时代,谁也说不准,静待花开即可。

王文广:其实现在只是刚刚开始,随着 ChatGPT 的出现一石激起千层浪,引发了整个社会的讨论。现在那么多聪明的人和资本已经投入到这个领域,国内的研发也处在加速阶段,对整个社会发展起到促进作用。由于这个变革比较大,我写一个“人工智能江湖的倚天屠龙记” 系列来讲述人工智能的发展。GPT 就像一把屠龙宝刀,屠龙宝刀初出江湖,引起江湖纷争。

AGI = 大模型 知识图谱 强化学习?

王文广:在 ChatGPT 出现之前, RPA (机器人流程自动化)并不容易被不懂相关技术的人使用,但现在通过知识图谱和大模型的支持,可以通过自然语言描述业务逻辑,生成自动化流程,从而真正实现自动化。这是一个非常大的机遇,因为微软的 Power Automation 也在做类似的事情。

如果我们忘记过去,只看现在,我们会发现一切都是机会。对于不同的公司和组织来说,ChatGPT 可能是机遇,也可能是危机。ChatGPT 对 OpenAI 和微软来说是一个机会,而对谷歌则是危机并存。

从个人技术成长的角度来看,我们不应该过于沉迷于历史上的技术和概念,而是应该从目前的技术水平出发,思考如何利用它们实现个人价值和目标。当前的技术发展充满了机遇,例如可以利用技术进行个人博客的推广、营销以及其他各种有益的事情。此外,技术的发展也为创业等更大的事业提供了良机。因此,我们应该积极抓住这些机遇,发挥技术的作用。

在讨论人工智能的发展方向时,我们已经涉及到了知识图谱、大模型、强化学习等多个方面。对于熟悉人工智能历史的人来说,这些技术实际上是人工智能三大范式的总结:连接主义、符号主义和行为主义。而强化学习则是行为主义研究的重点之一。知识图谱和神经符号学则继承了符号主义的思想,而大模型则代表了连接主义的成果。这三个方面的组合已经在一些产品中得到了应用,当然 ChatGPT 目前没有将知识图谱集成进去,但是像谷歌的 bard 和 Meta 的 Toolformer 等。从认知科学、认知神经科学等角度来看,人类智能可能就是这三个主义的组合。

因此,我提出了一个公式:AGI(通用人工智能) = 大模型 知识图谱 强化学习,这可能是通用人工智能的基础。虽然这个公式可能不完全准确,但它可以启发我们思考人工智能的未来发展方向。

王昊奋:这三个参数可以作为一个未知函数的三个变量。大模型虽然已经证明了其性能的优越性,但是它存在一些其他的问题,比如站在 ESG(环境、社会和公司治理)的角度而言,它对环境不友好的内容。其次,知识图谱并不一定是体现知识的唯一方式,因为数据和知识需要相互支持。知识的组织表征和推理能力是知识图谱中的重要方面。最后,一个合格的智能体不仅需要知识和相对聪明的系统,还需要持续进化。行为主义、强化学习、巨声智能等方法都是重要的要素,它们之间存在千丝万缕的关联。

因此,一个合格的智能体需要具备获得认知能力的大量数据和学习知识的能力,还需要具备持续学习的能力,并且可以从感知、认知、决策三个方面进行综合考虑。

另外,更重要的是将 GPT 这个个体部署到各个领域中去,例如数字人、助理和虚拟人等,形成一个复杂的社会结构,类似于人类社会中的群体行为和属性。这种情况下,对于多个智能体的协作、竞争和互补等复杂行为的涌现现象,需要考虑更大的社会范畴。因此,定义单个智能体的能力需要叠加成多个智能体,或者考虑整个社会域中的一些智能体,这将会更有意思。

总之,GPT 这个概念可能会在文化广泛传播的情况下扩散到更广泛的领域。

刘焕勇:我们不需要急于对通用人工智能下定义。其实在 GPT 出现之前,我们对这个东西并不知晓。就当前时间来看,它可能是一个最好的范例,但其中仍然存在很多问题。如果我们进行一些映射,例如对于一个智能体,它可能具备一定的模仿能力,就像小孩一样,他们有模仿能力。这种模仿能力实际上可以连接到当前的大规模语言模型,该模型通过大量的训练可以模仿人类的语言表达形式。知识图谱会有一些常识性的东西,它能规范并且控制住这种模仿能力。

另外,强化学习实际上是一种有反馈的学习方式,可以与周围的人产生各种关系,这种反馈意识可以帮助它更快地学习。如果将这个过程持续下去,至少有一些模仿,那么我认为这是一个比较好的范式。但是其中存在的问题,在不久的将来可能会有其他解决方案出来。

王文广:我们知道现有的模式,包括两位老师也都认为,至少目前比较智能的智能体应该将这三大主义融合在一起,包括知识图谱、大型语言模型和强化学习的组合。虽然我们不知道它的确切组合方式,但某种组合对于当前的智能体来说是必要的。在现实中,包括骨科和病理学等领域也正在融合这三者,这已经在某种程度上实现了。

未来,我相信国内的许多公司都在努力制造类似百度的文心一言等智能体,他们也在考虑如何将这些点融合在一起。

如何做到和 GPT 同级别或者超越它的大模型?

王文广:做到至少与 GPT 同级别,甚至超越它的大模型,这个难度有多高?我们需要多少资金才能实现这一目标?

王昊奋:要想实现至少与 GPT 同级别、甚至超越它的大模型,难度非常高。

这是因为在训练大模型时需要大量的数据,并且数据要具有多样性,涉及到的任务数也要丰富,每个任务所涉及的样例也要足够多。另外,还需要强大的算力支持,通常需要使用大量的 GPU 来进行训练。对于数据量,例如 GPT-3,其训练所需的 token 数量达到了 5000亿,从 davinci 到 text-davinci,我们可以看到训练中使用了大量来自包括维基百科、图书等数据。对于 ChatGPT 这样的模型,还需要大量的对话数据和问答数据作为输入,这是一个动态变化的过程。token 的数量是决定了模型的容量因素之一。数据的多样性,包括涉及的任务数,每个任务当中能看到的例子的不同等,也非常关键。要想出彩,还需要遵循 scaling law (标度律)。

第二点是算力方面,GPT-3 训练需要 1 万个 V100 GPU,根据 V100 和 A100 的算力计算,相当于 3000个左右的 A100,1000块 这样的卡在公有云上训练一个月可能也能训练出来。原本训练一次需要花费 460 万美元,现在可能就变成了 150万美元左右,不过之前总的训练费用大概是 1000 万美元。大家如果去看 OpenAI 首席执行官 Sam Altman 的访谈的话就会发现,未来随着可控核聚变等技术的应用,数据和算力的成本会逐渐下降。也有很多架构方面的优化,例如英伟达推出的 H100 显卡,这相当于是大模型与硬件的摩尔定律比怎样可以做得更好。

此外,另外一个重要的事情是 ARK Invest (方舟投资) 的报告,他们对这一领域做了许多预测。基本上可以考虑到 2030 年左右,同等规模的模型训练成本可能会降低 60 倍或 50 倍。更多详细内容需要大家去阅读报告了解。大家还可以关注英伟达这种机构,了解显卡本身的进化情况,如多卡集群。通过模型和显存的优化,成本一定可以做到更低。

刘焕勇:大规模模型训练需要以经济代价和时间成本为基础,我们应该以发展的眼光去看待这个问题。

经济代价包括模型规模、使用的硬件(如 A100卡)数量以及训练时间等因素,这些可以通过计算来得出具体的成本,大家可以去看一些权威解读。

除了经济代价,时间成本也是一个很大的问题。因为模型训练需要很长的时间,而且需要花费大量的人力和物力来标注、定义和收集数据。时间代价可能会因为不同的人而有所不同,如果时间周期拉得很长,这个代价就会很大。我们可以查看一些报告,例如数据集标注的时间和花费,来计算出时间成本。时间成本带来外部资本的变化,也是一个需要考虑的问题。

我们应该用发展的眼光去看成本和代价的问题,并将其分为不同的阶段和领域。如果我们要做一个完全通用的 ChatGPT 生成模型,那么它的成本将会很高,难度也会很大。

因此,我们可以选择分阶段和分领域的方式来研发 ChatGPT 模型。比如我们不要求它可以话题,只可以聊天就可以,这样成本就会比较低。例如,我们可以在第一个阶段解决 QA 问题,第二个阶段解决代码生成问题,第三个阶段再解决绘制表格和计算公式的问题。这样做的好处是成本会比较低,接受度也会比较高。

虽然 ChatGPT 让人耳目一新,但是我们最好先不要做过多评判谁会先做出来,以及实现的难度有多大的问题。我们应该扎扎实实从技术角度去实现,不管是学术界还是工业界,应该把这个技术应用好,把底层的基础设施建设好,走出一条中国的道路才是我们需要关注的问题。

王昊奋:从用的角度来看,从 ChatGPT 出现以后,尤其是 ChatGPT 整合到了 New Bing 以后,三大流派至少有了一个比较夯实的基座,在上面做一些延伸的事情,开启了一个新的阶段。我相信会有很多有趣的场景会被挖掘出来。从自建的角度来讲,我们如果想造一个和 ChatGPT 类似的东西的话,多说无益,做就可以了。上半年会有若干和 ChatGPT 类似的产品出来,但这并不是终点,这只是一个起点,最后一定能走出一条适合我们的道路。垂类的 GPT 的难度和价值还未被真正解锁,这才是我们下一步要去探索和开启的东西。

王文广:我写了一篇《从Transformer到ChatGPT,通用人工智能曙光初现》文章。随着 ChatGPT 、 New Bing 和谷歌的 Bard 出现,我认为融合了行为主义、连接主义和符号主义的通用人工智能的雏形已经出现。

未来我们还要不断研究如何将这三者更好地组合起来,帮助我们实现更加通用的智能,帮助人来提升智能化水平。我们希望社会能够发展越来越好,生活能够更加美好。我们能够每天最好工作四个小时、每周工作三天,其他的所有事情交给 AGI 来实现,那么我们的日子就过得舒服,就能够去享受我们的生活。希望随着大家的能力,曙光可以变成正午的阳光!

今天《开谈》节目到此结束。