穆斌:最近一段时间,特别是工业界或者科研界在所谓机器采样数据监督性的深度学习方面有很多进步,带来业界中高频、低频交易等方面的技术发展。另一方面是业界要关注人工智能领域新发展的区域,包括应用自监督的学习系统的发展。
肖京:随着新一代人工智能的发展,多领域的专业知识与常识将能够更好地与算法相结合。最新一代人工智能的特点,首先是与社会环境的交互能力;第二是提取、学习交互知识;第三是记忆学到的知识,避免重复学习;第四是迭代。
漆远:每个人都可以理解为是自然的遗传算法,我们都是遗传算法的一部分。现在很多模型之间没有共同进化。假如跟区块链这些技术结合起来,它们之间又能再做结合,共同往前进,有可能未来的智能会走向这个方向。
郭健:人在生出来时,很多算法已经固化到硬件里来了,它是遗传过来的,并不需要再重新训练。当算法间实现共同进化,这又是算法的元宇宙了,算法之间可以相互交互、相互学习,这样形成一个巨大的像人脑一样的整体算法。
郭健:请三位分享下从 CS 到后来做金融是怎么转变的?给我们后辈一些启发。
肖京:讲讲我的经历,不一定对每个人适用。
我从 1995 年开始做计算机视觉方面的研究工作,到 CMU 读书毕业之后那段时间一直在学校从事科研工作。科研过程中接触很多具体项目,把 CS 学到的很多东西,包括计算机视觉、人工智能等应用到具体的应用场景上。毕业以后去了硅谷,在硅谷这段时间先是在消费电子、电子科技、芯片相关的公司来工作,在那里面做了很多关于人工智能落地具体科技的产品和智能场景的应用。我发现计算机和人工智能的很多技术在具体的场景发挥很大的作用,产生巨大的价值。那时候逐渐已经意识到人工智能技术、计算机技术是非常重要的基础技术,能帮我们的产业实现真正的转型升级。
后来又到微软,在沈老师的指导下从事很多排序、互联网搜索、广告相关的工作,那时候就想下一个人工智能能做什么、计算机能做什么?像郭健介绍的一样,首当其冲就是金融行业,因为金融行业本身就是和数字打交道。人工智能、计算机的知识和技术,能把数字挖掘发挥出价值,产生很大的效应。那时候还没有数字经济产业的说法,但是我们的数字化、智能化是很好的起步阶段,我当时想物联网走到下一步肯定是进入金融行业,用人工智能和计算机技术去赋能。
漆远:一开始我就想做科研,没有想做金融。读书期间,那时候还是想做学术研究,当了几年老师之后,我们行业有一个变化,因为我们写 Research Paper,一是写创新点,二是写 Great Impact,Great Impact 部分都是写都比较宽泛的,后来我们想做真正有影响的。金融行业是非常好的适合人工智能发挥的地方,不光是刚才讲的预测,其实金融和风险也密切相关,不管是投资保险还是微贷。是 Machine Learning 非常适合的场景,所以我就走向这里。
穆斌:我的经历有点不太一样,因为肖博士和漆教授都是从研究界出来的,我是在 84 年在中科大的计算机系,当时计算机是非常新的领域,当时成立了一个计算机软件班,后来我去了芝加哥大学,当时在 95 年就进入了 Citadel。
在 02 年的时候 Citadel 决定成立完全新的公司分立出来独立运营,叫 Citadel Securities,它更加注重用计算机和数学和金融的工具做做市商的服务。我一直做计算机,我们公司的定位是一个技术公司,只是应用在金融,特别是 Citadel Securities。大家知道现在的交易系统主要是电子化的,交易所都是电子化程序化接口,包括各种各样的数据,都是用计算机、统计、AI 的方式来处理数据。像我们公司现在全球大概有 1100 多人,其中有超过一半以上都是学数学、计算机出身。随着数字化和交易技术的发展,学计算机的在这个领域有很多应用,像 AI 技术颠覆了互联网行业一样,也会颠覆金融行业。我觉得现在仅仅是开始。
郭健:我最近有一个观察,我们在量化交易、算法交易里面用到的 AI,其实主要指机器学习,前些年主要用偏统计的机器学习,这些年越来越多的开始用深度学习,不管哪种机器学习对数据量的要求非常大。正因为我们进入大数据的时代,这些方法才能有效应用进来,导致的问题是看起来量化交易只适合中频或者中高频甚至纯高频的投资,对于传统的价值投资或者低频投资,将来是不是可以用到 AI 的新技术?
穆斌:这方面确实非常独立,现阶段或者到现在为止我们的观察也是一样,刚开始是为了处理统计的线性模型。最近一段时间,特别是工业界或者科研界在所谓机器采样数据监督性的深度学习方面有很多进步,也带来业界的发展。刚好非常适用中高频的交易场景,所有的决策都基于大量带标签、带监督的数据。低频价值投资方面,某种程度上近来也有发展,像刚才漆教授讲的,业界很多人都在做所谓另类数据的应用,在这方面包括大量的数据,包括社交媒体、影像或者各方面的数据,主要的问题是标签很少或者没有。
另一方面是业界要关注人工智能领域新发展的区域,包括应用自监督的学习系统的发展。我和同行进行交流,像最近的发展,比如应用算法从无标签的数据里面去建立领域知识,再把领域知识的标签用到下一个的场景变革匹配。
郭健:今天在美国市场 50%-60%的成交量都是算法或者程序实现的,将来中国的市场也会慢慢往这个方向发展。假想有一天全市场 90%的成交量都是机器来做的,会不会有新的事情或者我们今天想象不到的情况发生?
穆斌:这是非常难回答的问题。像您说的,看历史的话,美国市场最近十几年量化发展非常快,现在大概 60%-70%的交易都是由量化交易或者系统化交易来完成的。如果从数据看,几方面的数据非常清晰。
第一,技术会增加做市商的竞争,我们需要花更大的精力做这些事情,但是这些事情会增加市场的有效性,包括价差或者移动性,对一般的交易用户的交易成本是非常明显的数据,在十几年前需要打电话去买卖一支股票,需要花各种各样的交易费。现在不管是什么样的交易,交易费都已经非常低了。
第二,市场最终的目的是为经济服务和非常有效的定价,还有资源的分配,这需要非常透明和高效的市场。从透明的角度来讲,把交易系统变成量化或者电子化是非常大的进步,相当于科技改变了行业,它正在改变,更加改变金融行业。这是我的感觉。
第三,商业和科技产品一样有些连带的东西需要考虑,包括沈院长他们花很多时间研究的,关于数字的可靠性方面的东西,还有监管的技术,我不是专业的,但是我觉得和科技一样有很大的推动作用,也需要关心各方面的变化。
郭健:现在不管是学术界还是业界,也在不断地探索用一些新的技术,能够把它应用到金融交易中来,比如学术和技术、学术界和企业界从来没有像今天这样紧密联系。想问漆教授,您觉得在学术界搞 AI,跟在企业界有什么不一样的地方,两者各有什么独特的魅力吗?
漆远:讲区别之前我先讲讲共性。我觉得好的商业、好的科研或者好的学术研究有很多共通的地方。
我有幸刚去复旦大学,在讲一些学校建议时我给的第一个建议,我说我们在企业界讲要看五年,想三年,做一年,作为一个 Business,要目光长远。高校也一样,比如我只看科研经费、Paper 数,真正的初心是什么?做科研要立志远大,要想做一个大的问题。这是一个共性,不能只想那么近。第二个,从基础原理出发。权威都是被打破的,一个人比你牛,是因为他早了几十年,你要相信自己正在往前走。尊重权威,承认它,但你自己要想我怎么往前走一步。商业也一样,从基础原理想能做什么,这里面有非常多共通的地方,怎么从这里面出发。
高校特别讲究融合交叉,商业也一样。科技公司、金融公司是两个非常好的结合。在学术里同样的,能讲多种语言的人,比如生物科学、医学和人工智能结合,把金融、经济和人工智能结合,这样有可能看到新的发展。这是一个很重要的共通之处。
讲讲不同的地方。我很有幸过去七年多时间里,在中国一流的公司里得到了很多培养和学习成长。昨天我听到王博士、沈老师、倪校长非常精彩的对话,印象很深的词是王博士讲专注和耐心。其实公司里做任何战略,首先讲的是专注,我不可能什么事都干,什么事都干要么就没有战略,要么是蒙人的,一定会想重点方向。在公司里我们一般会想公司里具体是哪几个,要把资源往下铺,往长期做。这是学术研究很多启发的,今天讲 Big Science,以前学校里都是在做比较小的研究。比如像 AIphaFold 到当年的 AIphaGo,其实对计算机的冲击很大,它产生一种新的可能性。科学里,能不能聚焦一些资源,真的解决大的科学问题。而不是行政命令要解决这个问题,这是学校可以向公司模式学习的地方。
今天在商业环境竞争很残酷,不可避免地需要很多妥协和平衡。但在高校环境里,我们有更多创新的机会,或者在 IDEA 这样的新型研究机构里,能够目光更长远,更多的耐心,才有可能孵化出更伟大的一些创新和产品,也有可能因为更耐心,反而产生了更好、更快的效果。
郭健:漆总刚刚提到学校和企业有各自的优势,比如你想做一些有更长远影响力的研究,学校有它独特的优势。因为我自己也是从学校里出来,我当时感觉有一个问题,在现在大数据时代,学校里相对来讲的劣势是数据的问题,因为现在的数据是在大公司手里,只有在这些大公司,才能数据科学方面比较前沿的研究。同样,因为算力也是掌握在大公司的手里,只有在这些地方才能做一些 AI 最前沿相关的研究,包括一些超大规模的机器学习模型研究。我想问的是您怎么看待这样一个现象,目前您觉得,如果在学校没有这么多算力和数据时,怎么发挥它独特的优势?
漆远:算力和数据对于任何做 Machine learning 研究的人都有非常大的吸引力,这是毋庸置疑的。这是很多研究人员从学界走向工业界的基本原因。今天诺奖获得者讲因果学习,小数据学习越来越重要,我们大数据做不了可以做小数据学习。这是偷巧,其实也是未来很重要的方向。
早上我和华为终端学习的人在聊,其实上面就没有算力。但如果我们从体系化来思考,学校和工业界今天有更多联合的可能性。我也想利用我自身的背景,因为能够讲两种语言,知道他们背后的思考,知道两种资源的优缺点,把他们搭建起来往前走。这有可能是中国往前发展很大的方向。我今天之所以从公司走向了学校,并不是说我现在就完全放弃了对工业的思考,我觉得教会我很多思考问题的角度和方式,和对他们怎么解决问题的资源的使用。这两个之间的结合,我认为是未来非常重要的方向。
回答您刚才讲算力和数据。我觉得数据,以后大企业虽然多,但社会的数据更多,隐私计算、多方安全计算、数据枢纽等等。这些为数据的流转、流通、定价产生了新的可能性。比如经济学里现在讲多方计算,还有一个问题是将来如果数据能够流转,不是在一家公司里,大家如何对数据本身定价。数据不像一个地,卖了就没有了,数据可以多次使用,怎么保证它被拷贝之后不重新定价。这些都会产生一些新的研究问题,但同时可能有很多是数字经济本身发展很关键的问题,有很多商业发展机会和科学发展机会。
某种角度上,大公司和小公司有可能又到了同一个起跑线上,同时思考一个未来的发展方向。这里面是学校和工业界很多可以共同思考的。
郭健:漆教授提到未来的数据,他希望能够流转,产生流动性,才能让一个数据不是只集中在少数巨头手里,让它的数据价值对整个社会做出贡献。这里面牵扯到一个问题,数据安全、数据隐私。
数据一旦可以流转,里面可能会有一些敏感信息,怎么样保证这些信息的来源安全性,怎么样保证这些信息牵扯到的个人和企业本身隐私的安全性?想问问肖总,您对这个问题怎么看?数据隐私跟数据安全。
肖京:这个问题很关键很重要,对平安来说这也是很重要的问题,因为平安是一个金融机构,是强监管,经常会被各种监管单位过来审计。尤其是最近通过了《个人信息保护法》、《消费者权益保护法》这两部法,对这方面的工作更加严格。
漆总刚才讲的方法也对,联邦学习、多方学习,我们有一个蜂巢平台,为了解决数据共享的问题,挖掘数据的价值,共同分享数据里的信息,做一些更准确的判断。这方面我们做了很多工作,也在实际应用,可以打通数据孤岛的问题,现在也在承接央行一个数据安全相关隐私计算平台的建设。
这只是在数据孤岛打破的前提下,每一个数据孤岛本身也有数据安全的问题。像平安有 30 多个专业公司,每一个专业公司按照监管的要求,所有都是物理的,完全单独存放。这些数据在集团层面怎么保护安全隐私还有敏感信息等,这是一个非常重要的问题。
我们首先是在组织架构上有一个非常完善的三道防线。每一个业务部门有自己一套完整体系,达到数据安全。职能单位,比如财务、合规、信息安全,会是第二道防线,防止数据安全的问题。第三道防线是集团稽核、合规、法务,作为问责和惩罚的。三道防线组织架构上进行安全保障。
我们有完整的一套数据安全管理规范,还有一套监管体系,规范能够保证落地执行。三道防线都可以发挥一定的作用,去做一些相应的措施。还有一套问责机制和考核机制,这是在整个集团层面。
在数据的全生命周期,包括分级分类、采集、传输、存储、分析处理和销毁,有一套完整的规范体系来保障数据安全,不会受影响。
具体来说,在四个不同层面,比如业务系统,通过权限管理、身份认证、日志审核等各方面手段,保证不会出现问题。网络系统有网络隔离、网络准入、红蓝军建设、防攻击、防网络侵入。线下数字机房或者敏感位置都有监控,包括在机房里用手机,会有相应的处理手段。所有的终端设备,显示屏、电子设备都有水印、权限管理等。整套体系,不同的入口都有安全防范的机制,确保数据安全不会受到影响。
郭健:其实平安作为一个集团,它有银行、证券、保险,保险应该是平安最主要的一块业务。作为一个综合型的金融集团,您觉得 AI 在不同垂直领域的落地有什么比较大的区别吗?
肖京:我自己觉得银行、保险、投资三个领域,在 AI 的应用上,本质上都是解决四个主要场景的问题:获客营销问题、客户服务问题、风险控制问题、运营管理问题,逻辑很接近,解决的业务类型很接近,但业务特质非常不一样。
投资领域可能更加关注行情分析、交易设备、交易系统的指向性等,在这三个环节做工作。银行可能更加多的是信用卡业务、客户服务、贷款领域的风险防范、获客。业务特质不一样,但底层逻辑主要是那四个重要的场景上去做的东西。我们做落地,最重要考虑的是技术和业务怎么结合起来。
围绕前面您问漆远的问题,数据是不是非常重要。我觉得最重要的还是场景和对业务的理解。回到现在这个问题,对金融领域的应用,我认为我们要对场景有足够的理解,比如我们要做一些量化交易模型等等,我不是一个深度学习专家就可以来做这件事情。我觉得数据虽然很重要,但对应的场景的理解更加重要。我跟我们团队说要像业务专家一样去思考问题,像技术专家一样去实践、落地,才能真正让系统发挥实际作用,产生实际效果。这才是最重要的。
围绕刚刚的问题,这三个领域最大的不同还是业务特质和对业务、场景的深度理解不同,至于背后的模型算法,逻辑基本上是一样的,没有太大的明显区别。
郭健:这些年对 AI 技术开源,主要的贡献貌似于来自 IT 巨头和互联网公司,包括微软、谷歌、Facebook、亚马逊,他们做了很多开源工作。金融企业好像在这方面的共享相对少一些,您觉得未来有没有可能金融集团也有更多开源的共享?
肖京:我认为开源也是一个双刃剑,包括前面提到数据、算法、算力哪个重要。为什么现在算法变得好像没那么重要,觉得随便找一些人用一些开源软件就可以做一个入门级的小平台。原因有一部分是开源造成的算法价值现在比较低。
虽然开源本身是好事,促进了行业发展、促进人工智能应用落地等等,但在一定层面上也造成算法人员的价值弱化了很多。我听到非常多的说法,说我们现在不需要养一个非常贵的算法团队,只要能采集到业务的数据,只要能有一个开源的模型,找几个硕士生做一做,就能把这个系统搞出来,产生足够的效果,业务专家来领导就行了。这种说法在业务公司里非常普遍。
我前段时间做了一个提案,开源一定要有一种方法,让用开源软件的付出一定的代价,让他觉得这个东西有很大的价值。
郭健:要建立一个开源市场。
肖京:对,开源市场和底层要用区块链或者什么技术,能够让所有痕迹是被记录下来的,谁用了,谁产生了直接的效果,应该是要付费的。
郭健:如果付费,不就又变成币元了,直接卖钱就可以了。
肖京:可以做公益社会的事情,他要知道他做这个事情一定要付出代价。虽然贡献给开源社区,很多人属于情怀,但对人工智能行业算法的进一步发展,未必不会有负面作用。
我觉得算法、算法和数据,最重要的还是算法,为什么需要那么多数据?原因是算法不够好。为什么大家不愿意做?因为没有太大的回报,我认为开源是双刃剑,我们要非常好的鼓励和推动这件事情,但也要建立一套体制,保证对开源社区有贡献的广大研究人员、算法人员有相应的回报。
金融机构为什么很少开源,金融机构是非常敏感的,比如穆斌师兄,他的 Citadel,你让他开源他的系统,对他来说是非常危险不安全的事情,对他业务有很大的影响。估计让你开源你的,你也觉得受影响。但开源底下一些工具和算法,可能你会愿意这么做。
平安集团内部也在尝试开源,内部先搞一个平台互相可以开源,把基础工具、基础能力、基础算法开源起来。后面再看其他层面怎么对外输出,怎么加入开源社区。但哪些工作可以开源,内部没有特别清晰的规范,包括整个行业我认为都没有一个清晰的规范。如果我们把核心的东西开源出去,会不会对金融体系造成很大的金融风险,大家没有这个把握,包括会不会有数据安全问题,或者开源社区会不会出现一些其他的问题影响我,这都没有特别清晰的规范和标准出来,大家对这方面还在探索、尝试。
郭健:今天整个开源体系还不是那么完善,这套框架或者这套生态系统如何能够良性的循环,还需要不断地积累跟摸索?
肖京:我认为现在只注重了开源推动行业发展,其他的负面效果没有考虑,会对别的地方有什么负面影响考虑得不周全,这有一定风险的,我们金融机构是对风险特别敏感的。
漆远:关于开源这件事情,我个人同意肖总也不同意肖总的观点。开源有很多需要完善的地方,但我认为开源是推动科技向善或者科技普惠重要的方向。如果不开源,就会导致越来越多的分化。大原则我是旗帜鲜明的支持开源大方向。用笑话说,国外一开源,国内就自主了。为什么?因为我们站在巨人的肩膀上,我们也反过来为开源贡献,人类大家一起往前走。
我觉得这个原则很重要,当然开源有很多商业的考量,哪一层开源。软件开源和数据开源数据已经讨论了隐私、定价、脱敏等等一大堆东西,但软件工具开源我认为是 AI 民主化很重要的一部分,所以旗帜鲜明支持这个。包括金融工具,我认为这上面能开的都开了。
第二个,刚才肖京讲的我很同意一条,今天开源社区起起伏伏很多架构,平台有的开放有的收。两个赛道之争在商业社会没有完,在学术里也有很多讨论。我觉得这里面将来有很多可能性变化,比如跟区块链的结合,我不一定发钱,有可能给其他方式,大家能不能共同发展。AI 算法将来如果不是某个公司的 Map,是分布式的 Map,算法都是分布式的,大家都开源。开源也可能导致更大的共性。
有可能在 AI 算法里开源之后能够促进更多用户消费者保护、共同的社会经济发展,大公司同样在里面可以获益很多。因为他们贡献很多,同时可以掌握更多信息,有可能会产生一个共同前进的可能性。
郭健:漆总的观点和肖总的观点,背后的逻辑有一个共同点,大家希望通过开源的方式更多激励开源软件的作者。我们希望这套体系会有一种流动机制。
漆远:我特别支持肖总讲的一点,认为算法不重要,我认为是一个错误的理解。开源之后是普惠,但不能大家普惠,总要有人再往前走一步,谁往前推一步。
有了 AIphaGo 之后大家都觉得人工智能特别牛,没有之前大家以为我是做大数据的,后来说你不是做人工智能的?我说对,我一直做人工智能,你不知道。因为 AIphaGo 教育了社会。我觉得人类的科技,大家如果有点情怀,不忘初心,就应该往前走,所以算法的研究很重要。
第二条在 Mission critical 的任务里,无人驾驶、金融交易,算法的不同,有可能 1%的不同造成 50%商业的不同。我认为科技进展,算法很重要,从商业上同样重要。
郭健:您刚刚的分享感觉到三要素:算法、算力、数据,您觉得算法是最重要的一块?
漆远:我认为没有算力的基础就没有上面的东西。2003 年时我有幸在伦敦 UCL,当时我们就下围棋,用强化学习,我用 Gaussian Process 来做,当时就思考这些问题,算力和数据 make all the differences。但我认为再往后走,算法推进了课题前进,也造成了商业的不同。所以这得看什么场景。
肖京:我觉得算法是最重要的,算力和数据目前比较重要,未来业务的支持、经验能够结合到算法里去,这个结合好了,未来十年可能算力没有那么重要,不需要那么多机器就可以很快把业务知识融合进去,解决很多问题。
郭健:您觉得是什么原因,未来为什么不需要那么大的算力,算法也可以算得很好呢?
肖京:因为人不需要这么多算力,人学知识是很快的。我们训练一个业务人员做一件事情,非常快就能上手。但机器要一大堆数据、案例训练,跑半天最后还不一定有他好,我认为就是算法没有研究出来。另外很多领域知识、专业知识、常识,没有很好的结合到算法里去,导致一大堆数据去灌它,不断地训练它,才能学会。这方面在新一代人工智能发展,十年以后肯定会改变。
郭健:这样我们可能会忽略掉一点,人在生出来时,很多算法已经固化到硬件里来了,它是遗传过来的,并不需要再重新训练。比如我们看到一个人就可以马上认出他是谁,这并不需要训练。小孩生出来就会哭,这也不需要训练。但今天我们的机器没有这么多遗传下来的一代一代的知识,每一个东西都得重新训,会不会有这方面的差别?
肖京:随着新一代人工智能的发展,多领域的专业知识与常识将能够更好地与算法相结合。最新一代人工智能的特点,首先是与社会环境的交互能力;第二是提取、学习交互知识;第三是记忆学到的知识,避免重复学习;第四是迭代。
漆远:补充一点,每个人都可以理解为是自然的遗传算法,我们都是遗传算法的一部分。现在很多模型之间没有共同进化。假如跟区块链这些技术结合起来,它们之间又能再做结合,共同往前进,有可能未来的智能会走向这个方向。
郭健:人在生出来时,很多算法已经固化到硬件里来了,它是遗传过来的,并不需要再重新训练。当算法间实现共同进化,这又是算法的元宇宙了,算法之间可以相互交互、相互学习,这样形成一个巨大的像人脑一样的整体算法。
今天的算法很大程度上还是依赖于记忆的能力,包括比如 GBT 这样的大模型,它也不是真正就理解文本的含义了,更大程度还是把文本中的规律给记录下来。您觉得未来随着算法的进步,我们也能真正理解这些背后的含义?
肖京:现在虽然不行,未来不仅是靠强记忆,是在学习的基础上记忆,学习总结出来的知识经验。把知识经验记录下来,未来就不用在大机器、大模型上训练,所以未来肯定可以完成这一步。
漆远:基于数据的 Deep learning 将来就像肖总讲的,会进一步结合起来。假如因果分析更好,就会基于场景,对数据依赖性,对传统这些都会减弱,有利于它更多的推广,泛化能力可能会变得更好。
穆斌:最近一段时间,特别是工业界或者科研界在所谓机器采样数据监督性的深度学习方面有很多进步,带来业界中高频、低频交易等方面的技术发展。另一方面是业界要关注人工智能领域新发展的区域,包括应用自监督的学习系统的发展。
肖京:随着新一代人工智能的发展,多领域的专业知识与常识将能够更好地与算法相结合。最新一代人工智能的特点,首先是与社会环境的交互能力;第二是提取、学习交互知识;第三是记忆学到的知识,避免重复学习;第四是迭代。
漆远:每个人都可以理解为是自然的遗传算法,我们都是遗传算法的一部分。现在很多模型之间没有共同进化。假如跟区块链这些技术结合起来,它们之间又能再做结合,共同往前进,有可能未来的智能会走向这个方向。
郭健:人在生出来时,很多算法已经固化到硬件里来了,它是遗传过来的,并不需要再重新训练。当算法间实现共同进化,这又是算法的元宇宙了,算法之间可以相互交互、相互学习,这样形成一个巨大的像人脑一样的整体算法。
郭健:请三位分享下从 CS 到后来做金融是怎么转变的?给我们后辈一些启发。
肖京:讲讲我的经历,不一定对每个人适用。
我从 1995 年开始做计算机视觉方面的研究工作,到 CMU 读书毕业之后那段时间一直在学校从事科研工作。科研过程中接触很多具体项目,把 CS 学到的很多东西,包括计算机视觉、人工智能等应用到具体的应用场景上。毕业以后去了硅谷,在硅谷这段时间先是在消费电子、电子科技、芯片相关的公司来工作,在那里面做了很多关于人工智能落地具体科技的产品和智能场景的应用。我发现计算机和人工智能的很多技术在具体的场景发挥很大的作用,产生巨大的价值。那时候逐渐已经意识到人工智能技术、计算机技术是非常重要的基础技术,能帮我们的产业实现真正的转型升级。
后来又到微软,在沈老师的指导下从事很多排序、互联网搜索、广告相关的工作,那时候就想下一个人工智能能做什么、计算机能做什么?像郭健介绍的一样,首当其冲就是金融行业,因为金融行业本身就是和数字打交道。人工智能、计算机的知识和技术,能把数字挖掘发挥出价值,产生很大的效应。那时候还没有数字经济产业的说法,但是我们的数字化、智能化是很好的起步阶段,我当时想物联网走到下一步肯定是进入金融行业,用人工智能和计算机技术去赋能。
漆远:一开始我就想做科研,没有想做金融。读书期间,那时候还是想做学术研究,当了几年老师之后,我们行业有一个变化,因为我们写 Research Paper,一是写创新点,二是写 Great Impact,Great Impact 部分都是写都比较宽泛的,后来我们想做真正有影响的。金融行业是非常好的适合人工智能发挥的地方,不光是刚才讲的预测,其实金融和风险也密切相关,不管是投资保险还是微贷。是 Machine Learning 非常适合的场景,所以我就走向这里。
穆斌:我的经历有点不太一样,因为肖博士和漆教授都是从研究界出来的,我是在 84 年在中科大的计算机系,当时计算机是非常新的领域,当时成立了一个计算机软件班,后来我去了芝加哥大学,当时在 95 年就进入了 Citadel。
在 02 年的时候 Citadel 决定成立完全新的公司分立出来独立运营,叫 Citadel Securities,它更加注重用计算机和数学和金融的工具做做市商的服务。我一直做计算机,我们公司的定位是一个技术公司,只是应用在金融,特别是 Citadel Securities。大家知道现在的交易系统主要是电子化的,交易所都是电子化程序化接口,包括各种各样的数据,都是用计算机、统计、AI 的方式来处理数据。像我们公司现在全球大概有 1100 多人,其中有超过一半以上都是学数学、计算机出身。随着数字化和交易技术的发展,学计算机的在这个领域有很多应用,像 AI 技术颠覆了互联网行业一样,也会颠覆金融行业。我觉得现在仅仅是开始。
郭健:我最近有一个观察,我们在量化交易、算法交易里面用到的 AI,其实主要指机器学习,前些年主要用偏统计的机器学习,这些年越来越多的开始用深度学习,不管哪种机器学习对数据量的要求非常大。正因为我们进入大数据的时代,这些方法才能有效应用进来,导致的问题是看起来量化交易只适合中频或者中高频甚至纯高频的投资,对于传统的价值投资或者低频投资,将来是不是可以用到 AI 的新技术?
穆斌:这方面确实非常独立,现阶段或者到现在为止我们的观察也是一样,刚开始是为了处理统计的线性模型。最近一段时间,特别是工业界或者科研界在所谓机器采样数据监督性的深度学习方面有很多进步,也带来业界的发展。刚好非常适用中高频的交易场景,所有的决策都基于大量带标签、带监督的数据。低频价值投资方面,某种程度上近来也有发展,像刚才漆教授讲的,业界很多人都在做所谓另类数据的应用,在这方面包括大量的数据,包括社交媒体、影像或者各方面的数据,主要的问题是标签很少或者没有。
另一方面是业界要关注人工智能领域新发展的区域,包括应用自监督的学习系统的发展。我和同行进行交流,像最近的发展,比如应用算法从无标签的数据里面去建立领域知识,再把领域知识的标签用到下一个的场景变革匹配。
郭健:今天在美国市场 50%-60%的成交量都是算法或者程序实现的,将来中国的市场也会慢慢往这个方向发展。假想有一天全市场 90%的成交量都是机器来做的,会不会有新的事情或者我们今天想象不到的情况发生?
穆斌:这是非常难回答的问题。像您说的,看历史的话,美国市场最近十几年量化发展非常快,现在大概 60%-70%的交易都是由量化交易或者系统化交易来完成的。如果从数据看,几方面的数据非常清晰。
第一,技术会增加做市商的竞争,我们需要花更大的精力做这些事情,但是这些事情会增加市场的有效性,包括价差或者移动性,对一般的交易用户的交易成本是非常明显的数据,在十几年前需要打电话去买卖一支股票,需要花各种各样的交易费。现在不管是什么样的交易,交易费都已经非常低了。
第二,市场最终的目的是为经济服务和非常有效的定价,还有资源的分配,这需要非常透明和高效的市场。从透明的角度来讲,把交易系统变成量化或者电子化是非常大的进步,相当于科技改变了行业,它正在改变,更加改变金融行业。这是我的感觉。
第三,商业和科技产品一样有些连带的东西需要考虑,包括沈院长他们花很多时间研究的,关于数字的可靠性方面的东西,还有监管的技术,我不是专业的,但是我觉得和科技一样有很大的推动作用,也需要关心各方面的变化。
郭健:现在不管是学术界还是业界,也在不断地探索用一些新的技术,能够把它应用到金融交易中来,比如学术和技术、学术界和企业界从来没有像今天这样紧密联系。想问漆教授,您觉得在学术界搞 AI,跟在企业界有什么不一样的地方,两者各有什么独特的魅力吗?
漆远:讲区别之前我先讲讲共性。我觉得好的商业、好的科研或者好的学术研究有很多共通的地方。
我有幸刚去复旦大学,在讲一些学校建议时我给的第一个建议,我说我们在企业界讲要看五年,想三年,做一年,作为一个 Business,要目光长远。高校也一样,比如我只看科研经费、Paper 数,真正的初心是什么?做科研要立志远大,要想做一个大的问题。这是一个共性,不能只想那么近。第二个,从基础原理出发。权威都是被打破的,一个人比你牛,是因为他早了几十年,你要相信自己正在往前走。尊重权威,承认它,但你自己要想我怎么往前走一步。商业也一样,从基础原理想能做什么,这里面有非常多共通的地方,怎么从这里面出发。
高校特别讲究融合交叉,商业也一样。科技公司、金融公司是两个非常好的结合。在学术里同样的,能讲多种语言的人,比如生物科学、医学和人工智能结合,把金融、经济和人工智能结合,这样有可能看到新的发展。这是一个很重要的共通之处。
讲讲不同的地方。我很有幸过去七年多时间里,在中国一流的公司里得到了很多培养和学习成长。昨天我听到王博士、沈老师、倪校长非常精彩的对话,印象很深的词是王博士讲专注和耐心。其实公司里做任何战略,首先讲的是专注,我不可能什么事都干,什么事都干要么就没有战略,要么是蒙人的,一定会想重点方向。在公司里我们一般会想公司里具体是哪几个,要把资源往下铺,往长期做。这是学术研究很多启发的,今天讲 Big Science,以前学校里都是在做比较小的研究。比如像 AIphaFold 到当年的 AIphaGo,其实对计算机的冲击很大,它产生一种新的可能性。科学里,能不能聚焦一些资源,真的解决大的科学问题。而不是行政命令要解决这个问题,这是学校可以向公司模式学习的地方。
今天在商业环境竞争很残酷,不可避免地需要很多妥协和平衡。但在高校环境里,我们有更多创新的机会,或者在 IDEA 这样的新型研究机构里,能够目光更长远,更多的耐心,才有可能孵化出更伟大的一些创新和产品,也有可能因为更耐心,反而产生了更好、更快的效果。
郭健:漆总刚刚提到学校和企业有各自的优势,比如你想做一些有更长远影响力的研究,学校有它独特的优势。因为我自己也是从学校里出来,我当时感觉有一个问题,在现在大数据时代,学校里相对来讲的劣势是数据的问题,因为现在的数据是在大公司手里,只有在这些大公司,才能数据科学方面比较前沿的研究。同样,因为算力也是掌握在大公司的手里,只有在这些地方才能做一些 AI 最前沿相关的研究,包括一些超大规模的机器学习模型研究。我想问的是您怎么看待这样一个现象,目前您觉得,如果在学校没有这么多算力和数据时,怎么发挥它独特的优势?
漆远:算力和数据对于任何做 Machine learning 研究的人都有非常大的吸引力,这是毋庸置疑的。这是很多研究人员从学界走向工业界的基本原因。今天诺奖获得者讲因果学习,小数据学习越来越重要,我们大数据做不了可以做小数据学习。这是偷巧,其实也是未来很重要的方向。
早上我和华为终端学习的人在聊,其实上面就没有算力。但如果我们从体系化来思考,学校和工业界今天有更多联合的可能性。我也想利用我自身的背景,因为能够讲两种语言,知道他们背后的思考,知道两种资源的优缺点,把他们搭建起来往前走。这有可能是中国往前发展很大的方向。我今天之所以从公司走向了学校,并不是说我现在就完全放弃了对工业的思考,我觉得教会我很多思考问题的角度和方式,和对他们怎么解决问题的资源的使用。这两个之间的结合,我认为是未来非常重要的方向。
回答您刚才讲算力和数据。我觉得数据,以后大企业虽然多,但社会的数据更多,隐私计算、多方安全计算、数据枢纽等等。这些为数据的流转、流通、定价产生了新的可能性。比如经济学里现在讲多方计算,还有一个问题是将来如果数据能够流转,不是在一家公司里,大家如何对数据本身定价。数据不像一个地,卖了就没有了,数据可以多次使用,怎么保证它被拷贝之后不重新定价。这些都会产生一些新的研究问题,但同时可能有很多是数字经济本身发展很关键的问题,有很多商业发展机会和科学发展机会。
某种角度上,大公司和小公司有可能又到了同一个起跑线上,同时思考一个未来的发展方向。这里面是学校和工业界很多可以共同思考的。
郭健:漆教授提到未来的数据,他希望能够流转,产生流动性,才能让一个数据不是只集中在少数巨头手里,让它的数据价值对整个社会做出贡献。这里面牵扯到一个问题,数据安全、数据隐私。
数据一旦可以流转,里面可能会有一些敏感信息,怎么样保证这些信息的来源安全性,怎么样保证这些信息牵扯到的个人和企业本身隐私的安全性?想问问肖总,您对这个问题怎么看?数据隐私跟数据安全。
肖京:这个问题很关键很重要,对平安来说这也是很重要的问题,因为平安是一个金融机构,是强监管,经常会被各种监管单位过来审计。尤其是最近通过了《个人信息保护法》、《消费者权益保护法》这两部法,对这方面的工作更加严格。
漆总刚才讲的方法也对,联邦学习、多方学习,我们有一个蜂巢平台,为了解决数据共享的问题,挖掘数据的价值,共同分享数据里的信息,做一些更准确的判断。这方面我们做了很多工作,也在实际应用,可以打通数据孤岛的问题,现在也在承接央行一个数据安全相关隐私计算平台的建设。
这只是在数据孤岛打破的前提下,每一个数据孤岛本身也有数据安全的问题。像平安有 30 多个专业公司,每一个专业公司按照监管的要求,所有都是物理的,完全单独存放。这些数据在集团层面怎么保护安全隐私还有敏感信息等,这是一个非常重要的问题。
我们首先是在组织架构上有一个非常完善的三道防线。每一个业务部门有自己一套完整体系,达到数据安全。职能单位,比如财务、合规、信息安全,会是第二道防线,防止数据安全的问题。第三道防线是集团稽核、合规、法务,作为问责和惩罚的。三道防线组织架构上进行安全保障。
我们有完整的一套数据安全管理规范,还有一套监管体系,规范能够保证落地执行。三道防线都可以发挥一定的作用,去做一些相应的措施。还有一套问责机制和考核机制,这是在整个集团层面。
在数据的全生命周期,包括分级分类、采集、传输、存储、分析处理和销毁,有一套完整的规范体系来保障数据安全,不会受影响。
具体来说,在四个不同层面,比如业务系统,通过权限管理、身份认证、日志审核等各方面手段,保证不会出现问题。网络系统有网络隔离、网络准入、红蓝军建设、防攻击、防网络侵入。线下数字机房或者敏感位置都有监控,包括在机房里用手机,会有相应的处理手段。所有的终端设备,显示屏、电子设备都有水印、权限管理等。整套体系,不同的入口都有安全防范的机制,确保数据安全不会受到影响。
郭健:其实平安作为一个集团,它有银行、证券、保险,保险应该是平安最主要的一块业务。作为一个综合型的金融集团,您觉得 AI 在不同垂直领域的落地有什么比较大的区别吗?
肖京:我自己觉得银行、保险、投资三个领域,在 AI 的应用上,本质上都是解决四个主要场景的问题:获客营销问题、客户服务问题、风险控制问题、运营管理问题,逻辑很接近,解决的业务类型很接近,但业务特质非常不一样。
投资领域可能更加关注行情分析、交易设备、交易系统的指向性等,在这三个环节做工作。银行可能更加多的是信用卡业务、客户服务、贷款领域的风险防范、获客。业务特质不一样,但底层逻辑主要是那四个重要的场景上去做的东西。我们做落地,最重要考虑的是技术和业务怎么结合起来。
围绕前面您问漆远的问题,数据是不是非常重要。我觉得最重要的还是场景和对业务的理解。回到现在这个问题,对金融领域的应用,我认为我们要对场景有足够的理解,比如我们要做一些量化交易模型等等,我不是一个深度学习专家就可以来做这件事情。我觉得数据虽然很重要,但对应的场景的理解更加重要。我跟我们团队说要像业务专家一样去思考问题,像技术专家一样去实践、落地,才能真正让系统发挥实际作用,产生实际效果。这才是最重要的。
围绕刚刚的问题,这三个领域最大的不同还是业务特质和对业务、场景的深度理解不同,至于背后的模型算法,逻辑基本上是一样的,没有太大的明显区别。
郭健:这些年对 AI 技术开源,主要的贡献貌似于来自 IT 巨头和互联网公司,包括微软、谷歌、Facebook、亚马逊,他们做了很多开源工作。金融企业好像在这方面的共享相对少一些,您觉得未来有没有可能金融集团也有更多开源的共享?
肖京:我认为开源也是一个双刃剑,包括前面提到数据、算法、算力哪个重要。为什么现在算法变得好像没那么重要,觉得随便找一些人用一些开源软件就可以做一个入门级的小平台。原因有一部分是开源造成的算法价值现在比较低。
虽然开源本身是好事,促进了行业发展、促进人工智能应用落地等等,但在一定层面上也造成算法人员的价值弱化了很多。我听到非常多的说法,说我们现在不需要养一个非常贵的算法团队,只要能采集到业务的数据,只要能有一个开源的模型,找几个硕士生做一做,就能把这个系统搞出来,产生足够的效果,业务专家来领导就行了。这种说法在业务公司里非常普遍。
我前段时间做了一个提案,开源一定要有一种方法,让用开源软件的付出一定的代价,让他觉得这个东西有很大的价值。
郭健:要建立一个开源市场。
肖京:对,开源市场和底层要用区块链或者什么技术,能够让所有痕迹是被记录下来的,谁用了,谁产生了直接的效果,应该是要付费的。
郭健:如果付费,不就又变成币元了,直接卖钱就可以了。
肖京:可以做公益社会的事情,他要知道他做这个事情一定要付出代价。虽然贡献给开源社区,很多人属于情怀,但对人工智能行业算法的进一步发展,未必不会有负面作用。
我觉得算法、算法和数据,最重要的还是算法,为什么需要那么多数据?原因是算法不够好。为什么大家不愿意做?因为没有太大的回报,我认为开源是双刃剑,我们要非常好的鼓励和推动这件事情,但也要建立一套体制,保证对开源社区有贡献的广大研究人员、算法人员有相应的回报。
金融机构为什么很少开源,金融机构是非常敏感的,比如穆斌师兄,他的 Citadel,你让他开源他的系统,对他来说是非常危险不安全的事情,对他业务有很大的影响。估计让你开源你的,你也觉得受影响。但开源底下一些工具和算法,可能你会愿意这么做。
平安集团内部也在尝试开源,内部先搞一个平台互相可以开源,把基础工具、基础能力、基础算法开源起来。后面再看其他层面怎么对外输出,怎么加入开源社区。但哪些工作可以开源,内部没有特别清晰的规范,包括整个行业我认为都没有一个清晰的规范。如果我们把核心的东西开源出去,会不会对金融体系造成很大的金融风险,大家没有这个把握,包括会不会有数据安全问题,或者开源社区会不会出现一些其他的问题影响我,这都没有特别清晰的规范和标准出来,大家对这方面还在探索、尝试。
郭健:今天整个开源体系还不是那么完善,这套框架或者这套生态系统如何能够良性的循环,还需要不断地积累跟摸索?
肖京:我认为现在只注重了开源推动行业发展,其他的负面效果没有考虑,会对别的地方有什么负面影响考虑得不周全,这有一定风险的,我们金融机构是对风险特别敏感的。
漆远:关于开源这件事情,我个人同意肖总也不同意肖总的观点。开源有很多需要完善的地方,但我认为开源是推动科技向善或者科技普惠重要的方向。如果不开源,就会导致越来越多的分化。大原则我是旗帜鲜明的支持开源大方向。用笑话说,国外一开源,国内就自主了。为什么?因为我们站在巨人的肩膀上,我们也反过来为开源贡献,人类大家一起往前走。
我觉得这个原则很重要,当然开源有很多商业的考量,哪一层开源。软件开源和数据开源数据已经讨论了隐私、定价、脱敏等等一大堆东西,但软件工具开源我认为是 AI 民主化很重要的一部分,所以旗帜鲜明支持这个。包括金融工具,我认为这上面能开的都开了。
第二个,刚才肖京讲的我很同意一条,今天开源社区起起伏伏很多架构,平台有的开放有的收。两个赛道之争在商业社会没有完,在学术里也有很多讨论。我觉得这里面将来有很多可能性变化,比如跟区块链的结合,我不一定发钱,有可能给其他方式,大家能不能共同发展。AI 算法将来如果不是某个公司的 Map,是分布式的 Map,算法都是分布式的,大家都开源。开源也可能导致更大的共性。
有可能在 AI 算法里开源之后能够促进更多用户消费者保护、共同的社会经济发展,大公司同样在里面可以获益很多。因为他们贡献很多,同时可以掌握更多信息,有可能会产生一个共同前进的可能性。
郭健:漆总的观点和肖总的观点,背后的逻辑有一个共同点,大家希望通过开源的方式更多激励开源软件的作者。我们希望这套体系会有一种流动机制。
漆远:我特别支持肖总讲的一点,认为算法不重要,我认为是一个错误的理解。开源之后是普惠,但不能大家普惠,总要有人再往前走一步,谁往前推一步。
有了 AIphaGo 之后大家都觉得人工智能特别牛,没有之前大家以为我是做大数据的,后来说你不是做人工智能的?我说对,我一直做人工智能,你不知道。因为 AIphaGo 教育了社会。我觉得人类的科技,大家如果有点情怀,不忘初心,就应该往前走,所以算法的研究很重要。
第二条在 Mission critical 的任务里,无人驾驶、金融交易,算法的不同,有可能 1%的不同造成 50%商业的不同。我认为科技进展,算法很重要,从商业上同样重要。
郭健:您刚刚的分享感觉到三要素:算法、算力、数据,您觉得算法是最重要的一块?
漆远:我认为没有算力的基础就没有上面的东西。2003 年时我有幸在伦敦 UCL,当时我们就下围棋,用强化学习,我用 Gaussian Process 来做,当时就思考这些问题,算力和数据 make all the differences。但我认为再往后走,算法推进了课题前进,也造成了商业的不同。所以这得看什么场景。
肖京:我觉得算法是最重要的,算力和数据目前比较重要,未来业务的支持、经验能够结合到算法里去,这个结合好了,未来十年可能算力没有那么重要,不需要那么多机器就可以很快把业务知识融合进去,解决很多问题。
郭健:您觉得是什么原因,未来为什么不需要那么大的算力,算法也可以算得很好呢?
肖京:因为人不需要这么多算力,人学知识是很快的。我们训练一个业务人员做一件事情,非常快就能上手。但机器要一大堆数据、案例训练,跑半天最后还不一定有他好,我认为就是算法没有研究出来。另外很多领域知识、专业知识、常识,没有很好的结合到算法里去,导致一大堆数据去灌它,不断地训练它,才能学会。这方面在新一代人工智能发展,十年以后肯定会改变。
郭健:这样我们可能会忽略掉一点,人在生出来时,很多算法已经固化到硬件里来了,它是遗传过来的,并不需要再重新训练。比如我们看到一个人就可以马上认出他是谁,这并不需要训练。小孩生出来就会哭,这也不需要训练。但今天我们的机器没有这么多遗传下来的一代一代的知识,每一个东西都得重新训,会不会有这方面的差别?
肖京:随着新一代人工智能的发展,多领域的专业知识与常识将能够更好地与算法相结合。最新一代人工智能的特点,首先是与社会环境的交互能力;第二是提取、学习交互知识;第三是记忆学到的知识,避免重复学习;第四是迭代。
漆远:补充一点,每个人都可以理解为是自然的遗传算法,我们都是遗传算法的一部分。现在很多模型之间没有共同进化。假如跟区块链这些技术结合起来,它们之间又能再做结合,共同往前进,有可能未来的智能会走向这个方向。
郭健:人在生出来时,很多算法已经固化到硬件里来了,它是遗传过来的,并不需要再重新训练。当算法间实现共同进化,这又是算法的元宇宙了,算法之间可以相互交互、相互学习,这样形成一个巨大的像人脑一样的整体算法。
今天的算法很大程度上还是依赖于记忆的能力,包括比如 GBT 这样的大模型,它也不是真正就理解文本的含义了,更大程度还是把文本中的规律给记录下来。您觉得未来随着算法的进步,我们也能真正理解这些背后的含义?
肖京:现在虽然不行,未来不仅是靠强记忆,是在学习的基础上记忆,学习总结出来的知识经验。把知识经验记录下来,未来就不用在大机器、大模型上训练,所以未来肯定可以完成这一步。
漆远:基于数据的 Deep learning 将来就像肖总讲的,会进一步结合起来。假如因果分析更好,就会基于场景,对数据依赖性,对传统这些都会减弱,有利于它更多的推广,泛化能力可能会变得更好。