张家兴:大模型和人的大脑神经元可以相比的模型,基于很大的数据训练出来,目的是希望让我们的模型具有先天的先验的能力。整个大模型领域我们为之努力的目标,最终想让机器像人一样学习。
田奇:我们做大模型的目的肯定是要应用,赋能行业应用,比如大模型发布后,不断去探索,落地行业的应用。从赋能的角度,是可以带来另一方面的增益,因为煤炭的排放可能产生更多风险。
林伟:整个大模型,因为它对于算力和计算的要求,通过云打造一个比较开放的平台,使得我们的算法工程师、数据提供者,能够在这上面进行一些开放的沉淀,就可以去 Enable 一些事情的发生。
袁进辉:我坚信深度学习模型会变得越来越大,当它变大之后,我们看到大的需求之后反推系统架构,它对系统架构的需求就不是原来同行 Google、亚马逊或者别的公司做的架构选择能处理的。即使今天同行还没有理解这件事,没有很多人同意这个事,未来某个点这件事会发生,这个事情发生的时候,如果我提前为这个架构做好准备,机会就在那儿。
张家兴:今天找来了几位朋友一起讨论科技圈正在发生的一件非常大的事情,为什么叫“大”?因为它是大模型。照例我应该先介绍几位嘉宾,但是我想换一个方式,在座的三位嘉宾都是我的朋友,我讲讲跟三位嘉宾怎么认识的,可能会更有趣。
2007 年我刚刚加入微软的时候,大数据架构还方兴未艾,我在微软所在的组正在做自己的大数据架构。这时候有一位技术大牛要和我们一起做,这个人就是林伟。我和林伟从那时候一直是同事,从微软到阿里巴巴到现在,已经有 14 年。目前林伟是阿里巴巴机器学习 PAI 平台的负责人,前几天林伟和他的团队推出了“十万亿参数规模的大模型”,号称世界最大的大模型。一会儿听林伟介绍一下。
2013 年,可以把它称为深度学习的元年,整个工业界都在进行深度学习的落地。当时我在微软亚洲研究院做深度学习的研究,这时候我听说组里面要来一位微博上面的大 V,在微博上的名字叫“老师木”,这就是我们的第二位嘉宾袁进辉。袁进辉作为机器学习、深度学习领域的专家,在微软亚洲研究院做了一段研究之后开始创业,大家从他的头发可以看出他的创业有多么的艰辛。袁进辉目前创办了一流科技,他做了 OneFlow 深度学习框架,是国产深度学习框架的佼佼者。
2021 年 5 月份,我来到了深圳,来到了 IDEA 研究院,我来的时候我已经确定要做预训练大模型,刚来的时候就听说华为出了一个盘古大模型,千亿规模。这个大模型就是田奇老师做的,田奇老师之前是做图像的,是计算机视觉领域的专家,IEEE Fellow,现在竟然也到自然语言的领域做大模型,从那之后我就拜访田奇老师,和田奇老师一见如故。
大家可以注意到一点,今天讨论的是大模型,但是三位嘉宾最初都不是做大模型的,有做系统的、有做计算机视觉的。第一个问题想问问三位嘉宾,为什么你们投入到大模型领域里?
田奇:我原来的背景是偏多媒体、检索,也做了很多视觉的工作。我加入华为以前做了 17 年高校老师,2018 年加入华为以后到诺亚方舟实验室做视觉基础研究。在入职一年半以后当时发布了视觉的基础研究计划,从数据、模型、知识三个方面提出六大计划。关于模型有两个方向:一是做大模型,让性能做到极致;二是做模型的瘦身计划,小模型优化。知识方面主要是体现通用系统。
我做视觉的,在视觉的任务上上,希望能够在检测、分割、识别有更统一的框架,更好的性能,在视觉上开始尝试做大模型。还有我个人角色的转变,诺亚的时候我是计算首席科学家,到华为云是 AI 首席科学家,我赋能的范围也要扩展一点,从视觉到 NLP。去年 8 月份开始在内部积极立项,由于另外的条件,有比较大的算力、数据,可能慢慢具备这样的条件。所以从去年 10 月份立项,因此走上了大模型的道路。
林伟:我还是做系统的,并不是模型出身。做系统的最喜欢有的挑战就是要有很大的数据和算力的分析。我们真正想做的是通过系统的能力去 enable 一些原来不敢想或者不敢分析的事情。
说到 AI,那时候我在科大还是在人工智能实验室,当时因为系统的能力以及数据的能力,我们做了很多事情并不落地。人工智能在最开始肯定会设想希望类似于人脑一样,能做非常海量的训练,但当时的数据的积累以及 AI 的算力还没有达到这么多分布式的成果。随着现在芯片的发展以及分布式系统的发展,最近几年突然大模型能够做很好的突破。这个浪潮正好是我们想用系统的能力做投入的。这个投入是蛮自然的,因为我们做分布式框架的时候就在设想这个浪潮会来到。
我很同意田奇的观点,我们认为大的模型上面是需要很好的弹性的训练,它需要耗很多的资本去运行。我们在云上构建这个东西有天然的好处,因为它可以利用很多闲散资源来通过弹性的方式来推动一个大模型的演进。所以从这点上我们觉得在云公司是非常需要把握这个抓手,可以推动科技或者产业的发展。
袁进辉:很高兴参加这次交流。我们做工程和科学特别讲逻辑,绝对不是盲目跟风做,都是背后有一套逻辑。
从结果来说,我可能跟大模型的问题结缘最早的人之一,差不多从 2008 年博士毕业的时候开始进入。我 2016 年从微软出来,别人问我深度学习框架,大公司已经做了很多,我回答我坚信深度学习模型会变得越来越大,当它变大之后,我们看到大的需求之后反推系统架构,它系统架构的需求就不是原来同行 Google、亚马逊或者别的公司做的架构选择能处理的。即使今天同行还没有理解这件事,没有很多人同意这个事,未来某个点这件事会发生,这个事情发生的时候,如果我提前为这个架构做好准备,机会就在那儿。
我从 2016 年底到后面经常在大会上做分享的时候说,深度学习框架后面一定要支持模型并行等。这个事到 2019 年的时候很多大模型出现,比如 GTP-3 出现。我发现全行业都觉得它是合理的事情,很多做框架的同行们也认为它是重要的问题。
当时我坚信这点其实还可以往前推,2008 年我开始做博士后,我思考以前在做 Computer vision,我们很少做原创的工作。我跟我的导师商量,做什么东西能够是引领性,别人想不到的事情?当时讨论的结果是做交叉学科,做计算神经科学、脑科学,从大脑里面获得什么启发。从 2008 年到 2011 年做博士后的时候,清华请了很多教授,MIT 包括 UCL 很多知名计算学习的科学家来研究人脑的结构怎么经过亿万年的进化得到的。这个问题到今天还没有答案,我搞好几年没有搞定,后来清华留校也泡汤了。
这个问题一直留在我脑袋里,大概 2012 年深度学习起来了,发现计算神经科学、交叉学科越来越重视。但很多同行都是靠经验,不停的试神经网络的结构,试出一个好的结构就可以发一篇 paper。但是很少人回答这个结构有没有理论可以推导出来,能不能自动学习出来?
2013 年加入微软研究院之后的第一个课题就在做这个问题,能不能通过自动学习的方式得到神经网络的结构。当时的半年到一年只在最小的数据做了一点点结果,但现在这个想法又变成一个 hot topic。那时候很不幸,在这个话题我花了一年多时间,结果夭折了,但是埋下了种子。理论上这个话题非常有意思,计算手段上没有系统能够支持在那么大的预先不规定神经网络结构的空间上自动学习这个问题。因为这些问题,好奇心就埋下非常坚定的信心,这个事情一定会发生。
张家兴:大模型和人的大脑神经元可以相比的模型,基于很大的数据训练出来,训练的目的是希望让我们的模型具有先天的先验的能力。如果我们想要机器做到同样的事情,要对机器进行预训练,预训练让机器具备这样的先验。整个大模型领域我们为之努力的目标,最终想让机器像人一样学习。
我们知道田老师有千亿的大模型,林伟这边有千万亿的大模型,我们的大模型真的需要那么大吗?“大”到底什么样实实在在的好处?
田奇:因为大模型在整个领域比较热,在国内,阿里、智源、浪潮、自动化所都发布了自己的大模型,阿里到十万亿,智源有百万亿。
我的经验结论是从百亿到千亿的结果,看能不能带来改变,从十亿到百亿的角度做了不少实验。大模型本质是提升模型的通用性和泛化能力,做大模型可以适用更多的任务。大模型同样不能说“大而胖”。
从性能来看,我们发现到千亿之后性能基本上趋于饱和,也就是百亿模型做得不错。再到千亿再往上空间比较有限。另一方面,对将来更难的任务,比如超长的文档理解,包括推理,可能还有大规模的知识理解,我们还不是很清楚。
第二,做多几个百亿的模型,能不能实现千亿模型的功能?因为我们发现一个模型,尤其在视觉中很难去统一所有的任务。我们做了一些测试,百亿的模型在各种性能来讲和千亿的模型在某个任务差别不大。如果换一个任务,百亿的模型泛化能力较弱。所以我们看性能的时候看性能和泛化能力,大模型在样本推理方面还是有比较大的优势。
林伟:我们去做大模型,第一是希望去锤炼系统的能力。我们当时希望系统是没有边界的,这是从系统角度考虑我们为什么要做这么大的模型。第二点,现在 AI 模型更多还是记忆模型,而多模态的模型刚刚起步,这对于数据存储的理解或者记忆的理解需求更高。
从实际效果来说,我们从百亿到千亿,在某些场景上还是看到了好处,特别是设计类的或者生成类的。你不可能拿千亿的模型做服务因为成本太高,不过也有一些尝试,特别是语言类模型,大家在尝试是不是拿更大的模型直接做服务。我们公司里是有人这么设想的,但这个成本是不是值得我也有一点怀疑态度。我有时候在想我们天天拿这么大的模型去做推理,带来的能量消耗是不是值得?
袁进辉:我肯定是站在越大越好这边的。第一点,人脑中神经元的连接,数量级是十的二十一次方,即使万亿级的参数,离这个也有几个数量级的差距。从理论角度分析,现在的神经网络深度学习也是统计学习。这里面有一个基本结论是模型复杂度要符合数据的规律。如果数据积累越来越多,里面的规律又非常复杂,那一定是需要很多参数去捕捉表示里的复杂性。第二点,模型变大是确定性非常高的事情。我们要发明一个新的算法,有时候要靠运气。但在实践中经常会发现只要把东西变大,它是确定性可以有收益的。
张家兴:从深度学习发展的历程来说,回顾过去,深度学习每一次重大突破都伴随着当时那个时代大模型的出现。现在我们主流使用的模型包括前两天“封神榜”大模型开源计划,里面的大模型都是十亿规模以上的。我们那个也拿到榜单第一名。我们自己做过测算,这个十三亿模型确实比之前三亿的模型准确率能提升 1-2 个百分点,所以大是有道理的。
现在地球真的能承受得了这些大模型吗?这个大模型跟我们节能环保以及我国提出的双碳(碳达峰、碳中和)目标,我们这样的技术发展路线是不是跟对节能环保的要求矛盾?
田奇:从短期看肯定是矛盾的。但长期看,为什么做大模型,希望有更多泛化能力和通用性。
我们做大模型的目的肯定是要应用,赋能行业应用,比如大模型发布后,不断去探索,落地行业的应用。比如做能源项目,水泥上,我们合作的一家企业,每年在炼水泥烧煤就要花几十亿,我们希望通过大模型的赋能,帮它的能耗降低。假设降低 1 个点,一年就是几千万的节省,降低 10 个点,可能就是几亿。比如在空调行业,通过大模型让能源消耗降低 20%以上。赋能后,希望带来降本增效,减少别的碳排放。
从赋能的角度,是可以带来另一方面的增益,因为煤炭的排放可能产生更多风险。并且大模型本身也是一个演变进化的,如果大模型的训练、优化能够进一步加快,甚至我们考虑跟芯片的结合,让它的推理效率、训练效率更高,将开销减下来。
林伟:我基本上比较同意田奇的一些观点。我再补一点, 硬件也在发展,可能随着一些新的硬件上的突破,说不定我们可以以更低能耗做更多计算。
现在的大模型更多还是在炼模型,用大服务做服务还没有来,这也是因为我们受到了功耗、收益的约束。未来随着工艺的提高或者其他方式,说不定也可能会成为一个现实。这个可以保持一定的开放视角来看这个事情。我们可以用这种技术用到节能行业,不管是刚刚说的煤炭或者是空调。这也是大的预训练模型预先把一些知识存储下来的好处。就像刚刚田奇说的,可能花了很多时间探索,效果也不见得好,说不定用预训练模型,能够泛化能力更强,迭代的效率会更好。
袁进辉:我没有新的观点,非常同意田老师和林伟的说法。
张家兴:下面我们就来讨论大模型的商业价值。这个问题从两个方面讨论:一是因为大模型技术的存在,我们会创造什么新的商业机会,创造什么新的行业?二是做大模型的这些人,一定程度上我们都是做大模型的人,我们的商业模式又是什么样,我们这个行业未来的商业模式到底是什么样子?
田奇:我先说第二点,可能大模型的商业模式也是我们非常关心的。大模型,做预训练模型,作为 AI 的基座,让更多人在上面使用。这样一个商业模式有三层。第一层,把大模型作为底座,商业模式变现,比如与国家的创新中心、政府,卖给他们或者跟他们联合合作,让他们在上面做开发。
第一层是卖给他们或者 Licence 的卖给国家计算中心。
第二层,大模型里涉及到很多技术,这一层靠一家企业来做是比较难的,我们希望开放很多问题出来。比如 IDEA,我们一起来开发大模型的很多技术,可以共享 IP,互惠互利。
第三层,提供给一般的 ISV。因为我们直接去面对千行百业的客户可能也不行,量太大了,我们把能力开放给 ISV,他们再去接触下游更多客户。有两种接触方式:一种是通过流量计费、计数或者让使用者免费使用,但流量模型,如果大模型将来能够改变搜索行业,同样能吸引来很多广告。
另外一个层面是我们给其他行业创造了哪些商业机会。从三个方面:
第一个,AI 本身,我是在 Cloud AI,过去是作坊式开发,后来希望把作坊式的开发变成工业化开发。大模型的本质要获得价值,要低成本、大规模可复制。
第二个是赋能其他行业,可能是工业制造行业,质检、流水线包括医疗、金融等等。
最后一个是赋能一些传统的科学计算行业。科学计算就更广了,像制药行业、海洋。希望从 AI 扩展到工业制造领域到更多的科学计算领域去赋能。
林伟:从几个方面:训练、服务、应用。
训练大模型需要海量数据。一个公司的数据有限,我们怎么样构建一个更大的数据的积累是很重要的,我跟 Harry 也聊过。这些数据的管理、数据的清洗,都需要很好的公司来做。怎么样积累数据,怎么样把数据管理起来,有大量需求。从数据、算力来说,现在不管是芯片设计、网络设计,怎么样能把计算、算力在系统上平衡。不管是硬件设计还是软件框架,可能采取的路线不太一样,系统上有很多值得做的。在训练这块,我看到需要很多系统的创业者来加入到这个领域。这也是为什么我们做分布式系统从大数据慢慢做到 AI 系统的惯性,希望从数据的积累慢慢到数据的挖掘的方向。
在服务上,整个商业化在大模型这块大家的 pattern 都差不太多,我们希望可以 enable 一些做算法的人,通过提供平台、算力、数据,使得算法的人能够很好的做一些大模型的尝试。第二,可能他可以利用已经做好的一些大模型,通过垂直场景、客化场景,能够孵化出一个比较实际的模型。我们慢慢从训练变到服务。
最后一类商业化,有的服务可以通过 SaaS 化的服务,直接服务终端客户。
整个大模型,因为它对于算力和计算的要求,通过云打造一个比较开放的平台,使得我们的算法工程师、数据提供者,能够在这上面进行一些开放的沉淀,就可以去 Enable 一些事情的发生。我们是希望别人能够在云上训练,不是所有的大模型都是我们几家公司来提供。
张家兴:对于云厂家来说是一个很大的机会。
田奇:刚才商业模式的一种是提供云服务,不管是阿里云、华为云还是其他云。就像大型机一样,计算机的发展过程是大型机,当时有谁说过世界上只需要五台大型机就够了。大模型也是,可能开始时认为需要五个大模型、十个大模型,但计算机的进一步普及和发展是要走进千家万户。
我们这个大模型也是为了给下游行业的中小微客户用。怎么让他用起来,如果不能上云,就是线下,线下必然面临很多问题,比如要做大模型的蒸馏和抽取小型化,不然它对边侧、端侧的算力要求比较高。我们也在考虑能不能从大型机到个人机的转化,让大模型能够走进千家万户。实际能不能跟软硬件进一步结合,把大模型装在芯片里,每一个小客户都可以拿一个芯片回去做二次开发。
袁进辉:我觉得大模型带来的最大变化是有可能解决今天我们看到 AI 创业公司的困局。比如现在很多 AI 的创业公司被别人诟病,说是做外包的或者是做非常深度定制的,不够标准化或者门槛低等等。但大模型恰恰解决了两个重要的问题,第一个是这个东西很难,不是谁都可以搞的,就意味着它可以成为一个独立的商业,各有壁垒。另外是它非常标准化,甚至通过 API 调用,就有可能孕育一种新的方式。就像以前大家想象很久的 SaaS 或者 Model service。
张家兴:各位嘉宾都讨论了对商业化的看法,我们现在正在进入大模型时代,正在见证一个正在发生的未来。我也相信随着这个领域所有人的努力,早晚有一天我们会见到具备人一样的认知能力,能够像人一样学习的认知机器人,他们跟人一起合作,共同交流,共同成长。我们也相信那样的世界会变成一个更加美好的世界。
张家兴:大模型和人的大脑神经元可以相比的模型,基于很大的数据训练出来,目的是希望让我们的模型具有先天的先验的能力。整个大模型领域我们为之努力的目标,最终想让机器像人一样学习。
田奇:我们做大模型的目的肯定是要应用,赋能行业应用,比如大模型发布后,不断去探索,落地行业的应用。从赋能的角度,是可以带来另一方面的增益,因为煤炭的排放可能产生更多风险。
林伟:整个大模型,因为它对于算力和计算的要求,通过云打造一个比较开放的平台,使得我们的算法工程师、数据提供者,能够在这上面进行一些开放的沉淀,就可以去 Enable 一些事情的发生。
袁进辉:我坚信深度学习模型会变得越来越大,当它变大之后,我们看到大的需求之后反推系统架构,它对系统架构的需求就不是原来同行 Google、亚马逊或者别的公司做的架构选择能处理的。即使今天同行还没有理解这件事,没有很多人同意这个事,未来某个点这件事会发生,这个事情发生的时候,如果我提前为这个架构做好准备,机会就在那儿。
张家兴:今天找来了几位朋友一起讨论科技圈正在发生的一件非常大的事情,为什么叫“大”?因为它是大模型。照例我应该先介绍几位嘉宾,但是我想换一个方式,在座的三位嘉宾都是我的朋友,我讲讲跟三位嘉宾怎么认识的,可能会更有趣。
2007 年我刚刚加入微软的时候,大数据架构还方兴未艾,我在微软所在的组正在做自己的大数据架构。这时候有一位技术大牛要和我们一起做,这个人就是林伟。我和林伟从那时候一直是同事,从微软到阿里巴巴到现在,已经有 14 年。目前林伟是阿里巴巴机器学习 PAI 平台的负责人,前几天林伟和他的团队推出了“十万亿参数规模的大模型”,号称世界最大的大模型。一会儿听林伟介绍一下。
2013 年,可以把它称为深度学习的元年,整个工业界都在进行深度学习的落地。当时我在微软亚洲研究院做深度学习的研究,这时候我听说组里面要来一位微博上面的大 V,在微博上的名字叫“老师木”,这就是我们的第二位嘉宾袁进辉。袁进辉作为机器学习、深度学习领域的专家,在微软亚洲研究院做了一段研究之后开始创业,大家从他的头发可以看出他的创业有多么的艰辛。袁进辉目前创办了一流科技,他做了 OneFlow 深度学习框架,是国产深度学习框架的佼佼者。
2021 年 5 月份,我来到了深圳,来到了 IDEA 研究院,我来的时候我已经确定要做预训练大模型,刚来的时候就听说华为出了一个盘古大模型,千亿规模。这个大模型就是田奇老师做的,田奇老师之前是做图像的,是计算机视觉领域的专家,IEEE Fellow,现在竟然也到自然语言的领域做大模型,从那之后我就拜访田奇老师,和田奇老师一见如故。
大家可以注意到一点,今天讨论的是大模型,但是三位嘉宾最初都不是做大模型的,有做系统的、有做计算机视觉的。第一个问题想问问三位嘉宾,为什么你们投入到大模型领域里?
田奇:我原来的背景是偏多媒体、检索,也做了很多视觉的工作。我加入华为以前做了 17 年高校老师,2018 年加入华为以后到诺亚方舟实验室做视觉基础研究。在入职一年半以后当时发布了视觉的基础研究计划,从数据、模型、知识三个方面提出六大计划。关于模型有两个方向:一是做大模型,让性能做到极致;二是做模型的瘦身计划,小模型优化。知识方面主要是体现通用系统。
我做视觉的,在视觉的任务上上,希望能够在检测、分割、识别有更统一的框架,更好的性能,在视觉上开始尝试做大模型。还有我个人角色的转变,诺亚的时候我是计算首席科学家,到华为云是 AI 首席科学家,我赋能的范围也要扩展一点,从视觉到 NLP。去年 8 月份开始在内部积极立项,由于另外的条件,有比较大的算力、数据,可能慢慢具备这样的条件。所以从去年 10 月份立项,因此走上了大模型的道路。
林伟:我还是做系统的,并不是模型出身。做系统的最喜欢有的挑战就是要有很大的数据和算力的分析。我们真正想做的是通过系统的能力去 enable 一些原来不敢想或者不敢分析的事情。
说到 AI,那时候我在科大还是在人工智能实验室,当时因为系统的能力以及数据的能力,我们做了很多事情并不落地。人工智能在最开始肯定会设想希望类似于人脑一样,能做非常海量的训练,但当时的数据的积累以及 AI 的算力还没有达到这么多分布式的成果。随着现在芯片的发展以及分布式系统的发展,最近几年突然大模型能够做很好的突破。这个浪潮正好是我们想用系统的能力做投入的。这个投入是蛮自然的,因为我们做分布式框架的时候就在设想这个浪潮会来到。
我很同意田奇的观点,我们认为大的模型上面是需要很好的弹性的训练,它需要耗很多的资本去运行。我们在云上构建这个东西有天然的好处,因为它可以利用很多闲散资源来通过弹性的方式来推动一个大模型的演进。所以从这点上我们觉得在云公司是非常需要把握这个抓手,可以推动科技或者产业的发展。
袁进辉:很高兴参加这次交流。我们做工程和科学特别讲逻辑,绝对不是盲目跟风做,都是背后有一套逻辑。
从结果来说,我可能跟大模型的问题结缘最早的人之一,差不多从 2008 年博士毕业的时候开始进入。我 2016 年从微软出来,别人问我深度学习框架,大公司已经做了很多,我回答我坚信深度学习模型会变得越来越大,当它变大之后,我们看到大的需求之后反推系统架构,它系统架构的需求就不是原来同行 Google、亚马逊或者别的公司做的架构选择能处理的。即使今天同行还没有理解这件事,没有很多人同意这个事,未来某个点这件事会发生,这个事情发生的时候,如果我提前为这个架构做好准备,机会就在那儿。
我从 2016 年底到后面经常在大会上做分享的时候说,深度学习框架后面一定要支持模型并行等。这个事到 2019 年的时候很多大模型出现,比如 GTP-3 出现。我发现全行业都觉得它是合理的事情,很多做框架的同行们也认为它是重要的问题。
当时我坚信这点其实还可以往前推,2008 年我开始做博士后,我思考以前在做 Computer vision,我们很少做原创的工作。我跟我的导师商量,做什么东西能够是引领性,别人想不到的事情?当时讨论的结果是做交叉学科,做计算神经科学、脑科学,从大脑里面获得什么启发。从 2008 年到 2011 年做博士后的时候,清华请了很多教授,MIT 包括 UCL 很多知名计算学习的科学家来研究人脑的结构怎么经过亿万年的进化得到的。这个问题到今天还没有答案,我搞好几年没有搞定,后来清华留校也泡汤了。
这个问题一直留在我脑袋里,大概 2012 年深度学习起来了,发现计算神经科学、交叉学科越来越重视。但很多同行都是靠经验,不停的试神经网络的结构,试出一个好的结构就可以发一篇 paper。但是很少人回答这个结构有没有理论可以推导出来,能不能自动学习出来?
2013 年加入微软研究院之后的第一个课题就在做这个问题,能不能通过自动学习的方式得到神经网络的结构。当时的半年到一年只在最小的数据做了一点点结果,但现在这个想法又变成一个 hot topic。那时候很不幸,在这个话题我花了一年多时间,结果夭折了,但是埋下了种子。理论上这个话题非常有意思,计算手段上没有系统能够支持在那么大的预先不规定神经网络结构的空间上自动学习这个问题。因为这些问题,好奇心就埋下非常坚定的信心,这个事情一定会发生。
张家兴:大模型和人的大脑神经元可以相比的模型,基于很大的数据训练出来,训练的目的是希望让我们的模型具有先天的先验的能力。如果我们想要机器做到同样的事情,要对机器进行预训练,预训练让机器具备这样的先验。整个大模型领域我们为之努力的目标,最终想让机器像人一样学习。
我们知道田老师有千亿的大模型,林伟这边有千万亿的大模型,我们的大模型真的需要那么大吗?“大”到底什么样实实在在的好处?
田奇:因为大模型在整个领域比较热,在国内,阿里、智源、浪潮、自动化所都发布了自己的大模型,阿里到十万亿,智源有百万亿。
我的经验结论是从百亿到千亿的结果,看能不能带来改变,从十亿到百亿的角度做了不少实验。大模型本质是提升模型的通用性和泛化能力,做大模型可以适用更多的任务。大模型同样不能说“大而胖”。
从性能来看,我们发现到千亿之后性能基本上趋于饱和,也就是百亿模型做得不错。再到千亿再往上空间比较有限。另一方面,对将来更难的任务,比如超长的文档理解,包括推理,可能还有大规模的知识理解,我们还不是很清楚。
第二,做多几个百亿的模型,能不能实现千亿模型的功能?因为我们发现一个模型,尤其在视觉中很难去统一所有的任务。我们做了一些测试,百亿的模型在各种性能来讲和千亿的模型在某个任务差别不大。如果换一个任务,百亿的模型泛化能力较弱。所以我们看性能的时候看性能和泛化能力,大模型在样本推理方面还是有比较大的优势。
林伟:我们去做大模型,第一是希望去锤炼系统的能力。我们当时希望系统是没有边界的,这是从系统角度考虑我们为什么要做这么大的模型。第二点,现在 AI 模型更多还是记忆模型,而多模态的模型刚刚起步,这对于数据存储的理解或者记忆的理解需求更高。
从实际效果来说,我们从百亿到千亿,在某些场景上还是看到了好处,特别是设计类的或者生成类的。你不可能拿千亿的模型做服务因为成本太高,不过也有一些尝试,特别是语言类模型,大家在尝试是不是拿更大的模型直接做服务。我们公司里是有人这么设想的,但这个成本是不是值得我也有一点怀疑态度。我有时候在想我们天天拿这么大的模型去做推理,带来的能量消耗是不是值得?
袁进辉:我肯定是站在越大越好这边的。第一点,人脑中神经元的连接,数量级是十的二十一次方,即使万亿级的参数,离这个也有几个数量级的差距。从理论角度分析,现在的神经网络深度学习也是统计学习。这里面有一个基本结论是模型复杂度要符合数据的规律。如果数据积累越来越多,里面的规律又非常复杂,那一定是需要很多参数去捕捉表示里的复杂性。第二点,模型变大是确定性非常高的事情。我们要发明一个新的算法,有时候要靠运气。但在实践中经常会发现只要把东西变大,它是确定性可以有收益的。
张家兴:从深度学习发展的历程来说,回顾过去,深度学习每一次重大突破都伴随着当时那个时代大模型的出现。现在我们主流使用的模型包括前两天“封神榜”大模型开源计划,里面的大模型都是十亿规模以上的。我们那个也拿到榜单第一名。我们自己做过测算,这个十三亿模型确实比之前三亿的模型准确率能提升 1-2 个百分点,所以大是有道理的。
现在地球真的能承受得了这些大模型吗?这个大模型跟我们节能环保以及我国提出的双碳(碳达峰、碳中和)目标,我们这样的技术发展路线是不是跟对节能环保的要求矛盾?
田奇:从短期看肯定是矛盾的。但长期看,为什么做大模型,希望有更多泛化能力和通用性。
我们做大模型的目的肯定是要应用,赋能行业应用,比如大模型发布后,不断去探索,落地行业的应用。比如做能源项目,水泥上,我们合作的一家企业,每年在炼水泥烧煤就要花几十亿,我们希望通过大模型的赋能,帮它的能耗降低。假设降低 1 个点,一年就是几千万的节省,降低 10 个点,可能就是几亿。比如在空调行业,通过大模型让能源消耗降低 20%以上。赋能后,希望带来降本增效,减少别的碳排放。
从赋能的角度,是可以带来另一方面的增益,因为煤炭的排放可能产生更多风险。并且大模型本身也是一个演变进化的,如果大模型的训练、优化能够进一步加快,甚至我们考虑跟芯片的结合,让它的推理效率、训练效率更高,将开销减下来。
林伟:我基本上比较同意田奇的一些观点。我再补一点, 硬件也在发展,可能随着一些新的硬件上的突破,说不定我们可以以更低能耗做更多计算。
现在的大模型更多还是在炼模型,用大服务做服务还没有来,这也是因为我们受到了功耗、收益的约束。未来随着工艺的提高或者其他方式,说不定也可能会成为一个现实。这个可以保持一定的开放视角来看这个事情。我们可以用这种技术用到节能行业,不管是刚刚说的煤炭或者是空调。这也是大的预训练模型预先把一些知识存储下来的好处。就像刚刚田奇说的,可能花了很多时间探索,效果也不见得好,说不定用预训练模型,能够泛化能力更强,迭代的效率会更好。
袁进辉:我没有新的观点,非常同意田老师和林伟的说法。
张家兴:下面我们就来讨论大模型的商业价值。这个问题从两个方面讨论:一是因为大模型技术的存在,我们会创造什么新的商业机会,创造什么新的行业?二是做大模型的这些人,一定程度上我们都是做大模型的人,我们的商业模式又是什么样,我们这个行业未来的商业模式到底是什么样子?
田奇:我先说第二点,可能大模型的商业模式也是我们非常关心的。大模型,做预训练模型,作为 AI 的基座,让更多人在上面使用。这样一个商业模式有三层。第一层,把大模型作为底座,商业模式变现,比如与国家的创新中心、政府,卖给他们或者跟他们联合合作,让他们在上面做开发。
第一层是卖给他们或者 Licence 的卖给国家计算中心。
第二层,大模型里涉及到很多技术,这一层靠一家企业来做是比较难的,我们希望开放很多问题出来。比如 IDEA,我们一起来开发大模型的很多技术,可以共享 IP,互惠互利。
第三层,提供给一般的 ISV。因为我们直接去面对千行百业的客户可能也不行,量太大了,我们把能力开放给 ISV,他们再去接触下游更多客户。有两种接触方式:一种是通过流量计费、计数或者让使用者免费使用,但流量模型,如果大模型将来能够改变搜索行业,同样能吸引来很多广告。
另外一个层面是我们给其他行业创造了哪些商业机会。从三个方面:
第一个,AI 本身,我是在 Cloud AI,过去是作坊式开发,后来希望把作坊式的开发变成工业化开发。大模型的本质要获得价值,要低成本、大规模可复制。
第二个是赋能其他行业,可能是工业制造行业,质检、流水线包括医疗、金融等等。
最后一个是赋能一些传统的科学计算行业。科学计算就更广了,像制药行业、海洋。希望从 AI 扩展到工业制造领域到更多的科学计算领域去赋能。
林伟:从几个方面:训练、服务、应用。
训练大模型需要海量数据。一个公司的数据有限,我们怎么样构建一个更大的数据的积累是很重要的,我跟 Harry 也聊过。这些数据的管理、数据的清洗,都需要很好的公司来做。怎么样积累数据,怎么样把数据管理起来,有大量需求。从数据、算力来说,现在不管是芯片设计、网络设计,怎么样能把计算、算力在系统上平衡。不管是硬件设计还是软件框架,可能采取的路线不太一样,系统上有很多值得做的。在训练这块,我看到需要很多系统的创业者来加入到这个领域。这也是为什么我们做分布式系统从大数据慢慢做到 AI 系统的惯性,希望从数据的积累慢慢到数据的挖掘的方向。
在服务上,整个商业化在大模型这块大家的 pattern 都差不太多,我们希望可以 enable 一些做算法的人,通过提供平台、算力、数据,使得算法的人能够很好的做一些大模型的尝试。第二,可能他可以利用已经做好的一些大模型,通过垂直场景、客化场景,能够孵化出一个比较实际的模型。我们慢慢从训练变到服务。
最后一类商业化,有的服务可以通过 SaaS 化的服务,直接服务终端客户。
整个大模型,因为它对于算力和计算的要求,通过云打造一个比较开放的平台,使得我们的算法工程师、数据提供者,能够在这上面进行一些开放的沉淀,就可以去 Enable 一些事情的发生。我们是希望别人能够在云上训练,不是所有的大模型都是我们几家公司来提供。
张家兴:对于云厂家来说是一个很大的机会。
田奇:刚才商业模式的一种是提供云服务,不管是阿里云、华为云还是其他云。就像大型机一样,计算机的发展过程是大型机,当时有谁说过世界上只需要五台大型机就够了。大模型也是,可能开始时认为需要五个大模型、十个大模型,但计算机的进一步普及和发展是要走进千家万户。
我们这个大模型也是为了给下游行业的中小微客户用。怎么让他用起来,如果不能上云,就是线下,线下必然面临很多问题,比如要做大模型的蒸馏和抽取小型化,不然它对边侧、端侧的算力要求比较高。我们也在考虑能不能从大型机到个人机的转化,让大模型能够走进千家万户。实际能不能跟软硬件进一步结合,把大模型装在芯片里,每一个小客户都可以拿一个芯片回去做二次开发。
袁进辉:我觉得大模型带来的最大变化是有可能解决今天我们看到 AI 创业公司的困局。比如现在很多 AI 的创业公司被别人诟病,说是做外包的或者是做非常深度定制的,不够标准化或者门槛低等等。但大模型恰恰解决了两个重要的问题,第一个是这个东西很难,不是谁都可以搞的,就意味着它可以成为一个独立的商业,各有壁垒。另外是它非常标准化,甚至通过 API 调用,就有可能孕育一种新的方式。就像以前大家想象很久的 SaaS 或者 Model service。
张家兴:各位嘉宾都讨论了对商业化的看法,我们现在正在进入大模型时代,正在见证一个正在发生的未来。我也相信随着这个领域所有人的努力,早晚有一天我们会见到具备人一样的认知能力,能够像人一样学习的认知机器人,他们跟人一起合作,共同交流,共同成长。我们也相信那样的世界会变成一个更加美好的世界。