张磊:“ 做研究也是一种创业,要去探索一个未知的领域,要做一些了不起的工作。”
华刚:“ 没有业务驱动和技术驱动之分,它本来就不是对立的。我们做事情应该是业务导向、技术驱动。”
徐一华:“ 最后还是要回到为客户服务,还是要回到过日子,还是要创造客户价值。”
曾文军:“ 办校这个事情是非常复杂的工程,周期长,见效慢,可能需要有情怀,需要有一些远见和耐心,要办一些新型的研究型大学,还要敢为人先。”
张磊:计算机视觉是 AI 的核心问题,因为人的各种感知能力里面有 70%的信息是来自于我们的视觉系统。计算机视觉已经有很多落地的技术,比如说人脸识别,我们今天将探讨更多场景下的视觉落地问题。我们非常有幸邀请到的嘉宾都是兼具研究背景和实际落地经验的研究人员和学者。
徐一华:我是微软亚洲研究院院友中最早的创业者,创业一开始就关注两个场景:一是工业领域;二是医学领域。这两个领域的共同点是场景绝对可控,光源各方面可控,这些可控场景下图像比较简单,我们研究算法的才能发挥价值。从 2005 年底起,我就在这个行业。很幸运的是,在 2019 年,我们成为科创板第一次过会的三家企业之一,过会也代表了国家对我们这些搞硬科技工科呆男的认可。
张磊:一华博士的经历非常完美地诠释了王坚博士(王坚博士在“圆桌论坛:院士对话”中提到)讲的“专注”和“耐心”,缺少了专注,是不可能取得今日的这般成果。
曾文军:那我可是可考证的、从微软亚洲研究院第一个出来创校的。从微软亚洲研究院离职后加入东方理工大学,这个学校是由著名的企业家虞仁荣先生捐资 300 亿创立,是浙江省和宁波市政府重点支持的项目。目标是想举办一个私立的、新型的创新型大学。在办学理念、机制、文化、培养目标等方面借助世界上先进的经验,做一些前沿的尝试和探索,也希望为国家在教育行业方面解决一些问题。学校目前正在筹办之中,希望得到大家更多的关注和支持。
华刚:便利蜂是 2016 年由庄辰超和他的伙伴们一起创立的便利零售企业,到今天为止,经过 5 年时间,我们可以称自己为最大的公司直营便利连锁店,在全国拥有超过 2000 家门店,并且每个月都以几百家的速度往二三线城市下沉新的门店。之所以能大规模扩张我们公司直营门店的模式,是因为整个运营系统是在追求数字、算法和系统驱动。我认为,计算机视觉为产业做的最大的贡献是通过计算机视觉形成的系统,能够对线下物理世界的信息能够做数字化。同时,数字化的信息最终能够 fit(适配)到决策系统。便利蜂就是这样的新零售公司。
张磊:我们看到计算机视觉在开始走入越来越多具体的应用场景,例如工业视觉、新零售,还有其他的领域当中。过去十年,计算机视觉有了非常大的突破,如果拿现在的技术穿越到十年前都是黑科技。同时,我们开始看到技术已经开始面对更多的落地问题,我们也有很多非常优秀的研究人员进入企业里面去看具体的问题。今天请几位嘉宾都分享一下在他们从事的行业里面,碰到过有什么样的问题?问题场景有什么特点?
徐一华:PPT 上写的,我们公司内部讲法叫“1+6”,一套工业 AI 能力平台,深耕工业领域的六个细分行业。目前我们占比最大的是消费电子,PCB、半导体等等,这是我们深耕的六个方向,也是公司目前业务的结构。
张磊:工业视觉里面,第一步是成像的问题,首先要把成像拍清楚才能考虑后面的视觉算法。有什么实例分享?
徐一华:打个比方,现在讲得比较多的是手机玻璃的缺陷检测,我们做这个项目到目前为止做了三四年,三四年里面大概有 1/10 的时间花在算法的研发上,剩下有大概 20%、30%的时间花在整个设备的搭建上。这还不是我们花时间最多的,我们遇到最大的挑战是怎么把玻璃洗干净。在工厂环境里面,玻璃再怎么干净都会有很多灰尘,高倍率放大之后灰尘和缺陷一模一样,特别是二维成像的技术不可识别。在真的进入检测机之前必须要用各种手段把它洗得非常干净,所以玻璃清洗成为我们花时间最多的。我试了十几种方案,我说我们差不多要成为玻璃清洗的公司了。
产品和技术的挑战,它是 360 度的。我认为算法用深度学习或不用深度学习并不是里面最高技术含量的部分,也不是最大的挑战。工业界的场景还有一个点,我们讲深度学习前提要有大量数据,但是工业界的场景获得大量数据比较困难,所以我们往往是小批量数据下把算法调出来。事实上,一般会是传统的视觉算法和深度学习某种程度的结合,结合点在什么地方最优?只能在实验中去试。
张磊:真正进入工业领域,要考虑机电控软,机是机械,电是电子,控是控制设备,你要跟生产线对接,然后是软件算法,其实每个环节都不能缺少。
曾文军:微软的应用场景,我团队参与了一些,涉及到跟微软视频、分享平台以及和远程流程控制相关的图像视频的处理意见和决策方面的场景。在视频方面有实时和延迟方面比较严格的要求,这里显示了两个微软的产品:一是微软的视频分享平台叫 Microsoft Stream,我们也把它叫企业的 YouTube,是做视频的存储、搜索、分享方面的平台;二是视频会议以及合作平台叫 Microsoft Teams。这两个都是视频平台,但是对实时的要求,对延迟的要求非常不一样。右边 Teams 是交互式应用,对延迟的要求非常严格。原来我们开发过一个去噪声的工具,优化后它可以在左边的 Stream 上做到实时,性能也非常好,可以用。当把它用到右边 Teams 交互式平台上,实际上就没法满足交互式延迟方面非常严格的要求。最后我们只好用另外的结构开发一套具有同样功能但能满足延迟方面的工具,被迫用两套工具解决两个问题。
右边显示的是 Together Mode,可以把视频头像抠出来放在共享虚拟的背景下,达到昨天讨论的加点温度的用户体验,也可以说是元宇宙的应用。这里可以看到它对时延要求,对模型的大小、复杂度要求非常高。所以你必须开发一个软件,这里做的是图像分割非常经典的计算机视觉的任务,你不得不被限制在非常小的模型,复杂度非常小的模型上,这样可能不得不为了满足时延的要求损失一些性能上的要求。作为视频来讲,相比其他的视频的任务可能有些自己的特性和挑战性。
张磊:这个问题还是挺难的。因为这么多人的光照背景差别非常大,把这些人简单的拉到一起,放到一个画面里,还是很不容易做好的,有很多非常细节的问题需要解决,同时还要考虑实时性和传输的连续性,非常不简单的问题。
华刚:我展现的是门店里用一个机器人以及相应的相机做三维重建和语义抽取,把门店的所有货架和位置都能识别,并且机器人上安装的相机把商品图摄取后,识别出来形成完整的数字化商品陈列信息。这个信息对我们的商品管理,上接到物流,下接到对用户需求的预测,都是非常关键的信息。我们这套系统要在几千家门店同时运行,而且又是软硬结合的系统。我认为现在像门店那种相对可控的环境中,算法不是太大的问题。更难的是运维的问题:怎么能够保证这几千套硬件系统在我门店运营时保证尽量少出错,并且在出错情况下快速的 Fix(修正)。这是很关键的问题,能保证整个系统 24 小时能够健壮运行的重要保证。
软件算法的可运维性,大部分计算机视觉算法是基于统计的方法做的。这就决定了很大程度上你的算法不可能是 100%。当你出现一个错误时,怎么能像一个软件 Bug 一样快速的 Fix 它。在纯统计学机制下,对这一类型 Bug 的 Fix 并不是那么友好。你出了一个错,可能短时间内不能一下 Fix,所以系统会不停的出错。而这对于一个 24 小时运营的系统,是系统不能接受的,有没有相应的算法能把整个模型置于可运维的状态,出了错能快速 Fix,包括软件、算法。这是我们过去几年研究开发工作中的痛点处理的问题,所以我们整套设备能够复现算法的 BUG 并且及时处理掉。
张磊:系统的问题比算法的问题还要重要。这么复杂的系统,多个门店、多个系统 24 小时不间断运维,本身是非常有挑战的系统问题。系统里如果出了故障,比如算法的故障,现在基于统计学习的模块,是不是有些办法能做快速的修复和弥补,这对研究来说也是一个新的问题,应用场景催生出来的问题。
张磊:大家原来都在大的公司或者大的企业工作过,开始进入到创业者的角色时,体验以及觉得最大的体会,和以前有什么不一样?
徐一华:我都有点忘掉了当年在微软工作什么样子了,在微软研究院 4 年(2001-2005 年),应该是我这一生中最开心的 4 年,这是毫无疑问的。当时在 Harry 的带领之下,没日没夜写论文,虽然写出来的都是 Junk Paper,但还是觉得学到了很多东西,非常开心。
出来创业,我从一个科研人员到一个产品经理,从一个产品经理到一个企业经营者。整个心路历程,大概花了至少 6-7 年时间,2006 年从微软出来,大概 2012 年左右,我才觉得自己对于整个企业特别是硬科技,和互联网、软件企业和单一工种的企业又不太一样。我们从技术学科上讲,刚才提到光机电算软,除了声学不怎么涉及,其他所有学科都涉及了。
销售也是大客户、小客户都有,经销、直销都有,我们做的又不是 To C 的领域,To C 直观一点,自己是产品的设计者又是用户,但 To B 自己不是用户。整个链条,至少到 2012 年左右我才觉得自己大概能 Hold 住公司的方方面面。
张磊:这个阶段有生存的压力吗?
徐一华:我觉得不叫生存的压力,叫生死的压力。我开始创业是在北京,那时候微软的工资算挺高的,但从做企业的角度讲,这点钱根本不够花,很快就花完了,花完了就卖房子。那时候在北京买过一套房,60 万买的,隔了两年一卖,100 多万。我那时候就觉得房地产是非常有希望的行业,我很后悔那时候没有及早进入到这个行业。但这点钱也很快就花完了,就找亲戚朋友借钱,亲戚见了我开始躲了,基本上山穷水尽。
当时 Harry 主动找到我,说你这个公司在北京没法做,你去苏州,那里有些创业资助的项目,可以给你资助。去了苏州之后,我们就活过来了。我内心里还是很感恩苏州的,当然给苏州也做了点贡献。他投我的钱,八九年变成 200 倍,也算是投资了一个比较成功的案例。
张磊:一华给大家又分享了一下他创业的历程,这和以前在公司里工作是非常不一样的,这是做得比较久的企业了。
徐一华:肯定,在大企业里,平台的力量是决定性的,但创业时的挑战,完整度和全面性完全不同,乐趣也不一样。
张磊:非常不一样的挑战,做研究也很有挑战,我们自己也经常讨论说做研究也是一种创业,要去探索一个未知的领域,要做一些了不起的工作,关键是要有这种心态。
曾文军:我总体的感觉是创校比起一般的创业更复杂一点,因为涉及到的面非常广,需要有大的土地,需要有办校经费、师资、学生,需要得到教育部、省、市的支持,也需要和中央、省市的规划保持一致。总体来讲,办校这个事情是非常复杂的工程,周期长,见效慢,可能需要有情怀,需要有一些远见和耐心,要办一些新型的研究型大学,还要敢为人先。
张磊:非常难得的体验,创业容易创校真的非常非常难,尤其是十年育木百年育人,一个学校起来非常非常花时间,希望我们这样一个新型的研究大学能够越办越好。
华刚:在微软时,它的整个盘子比较大,能给我们这些研究人员相对比较大的空间,我们作为研究人员,在微软是很幸福的。因为我们很多时候只用做 0 到 1 的事情,把一个技术从无到有做出来。这是很幸福的。
我加入创业公司后,最大的体会是现在我不仅要 0 到 1,还可以 1 做到 100。这个过程会有一种全新的不同的体验。现在我们在整个项目规划时,会有一个通常的规划。我们在整个业界不同的公司经常会有的一个争论是项目应该是业务驱动还是技术驱动,从我的角度来说没有业务驱动和技术驱动的区分,它们本来不是对立的。我们做事情应该是业务导向、技术驱动。任何项目的形成,需要有一个业务的需求开始,回到技术的研发,然后去驱动业务的成长。IDEA 说从需求出发,回到需求去,我很认同,项目好了之后再进一步深挖,用技术把我们的需求推进到最极致的情况。这是我在创业公司和在微软这样大公司工作体会的最大不同。
张磊:非常有意思的分享,对我们 IDEA 的总结也非常到位。我们起点是以数字经济作为起点,看到这些问题来做我们自己核心的能力、研究的能力,希望这些技术再回到应用产业里,能真正的解决问题。这也是非常好的循环,如果能把这个循环打通,可能这个事情就成功了。
华刚:过去十年中我们一直在找计算机视觉所谓的 Killer application 在什么地方。起码对于我自己来讲,计算机视觉的 killer application 是说我们怎么能够把线下信息进行数字化后,去颠覆很多传统行业,能够提升它的数字化生产力。这是我自己对计算机视觉的一个理解,在这个基础上,我认为计算机视觉的黄金时代才刚刚开始。
曾文军:我想说的前半句是:道路是曲折的。刚才大家聊了很多,计算机视觉落地有很多挑战,大家应该要做好思想准备,要有耐心,去做一些比较持久的努力。后半句是:前途是光明的。昨天论坛上很多嘉宾讨论到三维或者更高维的元宇宙,有人相信他们的前途,也有资本愿意投,我们做二维、三维的视觉就不用怎么担心了。
张磊:如果要做更前沿的工作,要到大学里去做。文军校长以身作则,到学校里去创立这么一个环境。
徐一华:我觉得连我这样的人都能做一个上市公司,在座各位大可以足够自信,肯定能做非常非常了不起的事情。AI 这几年突然变得很受欢迎,但其实最后还是要回到为客户服务,还是要回到过日子,还是要创造客户价值。归根到底,商业里唯一永恒的可能就是客户价值。这是我的观点,谢谢!
张磊:关键还是给用户带来核心价值。
张磊:“ 做研究也是一种创业,要去探索一个未知的领域,要做一些了不起的工作。”
华刚:“ 没有业务驱动和技术驱动之分,它本来就不是对立的。我们做事情应该是业务导向、技术驱动。”
徐一华:“ 最后还是要回到为客户服务,还是要回到过日子,还是要创造客户价值。”
曾文军:“ 办校这个事情是非常复杂的工程,周期长,见效慢,可能需要有情怀,需要有一些远见和耐心,要办一些新型的研究型大学,还要敢为人先。”
张磊:计算机视觉是 AI 的核心问题,因为人的各种感知能力里面有 70%的信息是来自于我们的视觉系统。计算机视觉已经有很多落地的技术,比如说人脸识别,我们今天将探讨更多场景下的视觉落地问题。我们非常有幸邀请到的嘉宾都是兼具研究背景和实际落地经验的研究人员和学者。
徐一华:我是微软亚洲研究院院友中最早的创业者,创业一开始就关注两个场景:一是工业领域;二是医学领域。这两个领域的共同点是场景绝对可控,光源各方面可控,这些可控场景下图像比较简单,我们研究算法的才能发挥价值。从 2005 年底起,我就在这个行业。很幸运的是,在 2019 年,我们成为科创板第一次过会的三家企业之一,过会也代表了国家对我们这些搞硬科技工科呆男的认可。
张磊:一华博士的经历非常完美地诠释了王坚博士(王坚博士在“圆桌论坛:院士对话”中提到)讲的“专注”和“耐心”,缺少了专注,是不可能取得今日的这般成果。
曾文军:那我可是可考证的、从微软亚洲研究院第一个出来创校的。从微软亚洲研究院离职后加入东方理工大学,这个学校是由著名的企业家虞仁荣先生捐资 300 亿创立,是浙江省和宁波市政府重点支持的项目。目标是想举办一个私立的、新型的创新型大学。在办学理念、机制、文化、培养目标等方面借助世界上先进的经验,做一些前沿的尝试和探索,也希望为国家在教育行业方面解决一些问题。学校目前正在筹办之中,希望得到大家更多的关注和支持。
华刚:便利蜂是 2016 年由庄辰超和他的伙伴们一起创立的便利零售企业,到今天为止,经过 5 年时间,我们可以称自己为最大的公司直营便利连锁店,在全国拥有超过 2000 家门店,并且每个月都以几百家的速度往二三线城市下沉新的门店。之所以能大规模扩张我们公司直营门店的模式,是因为整个运营系统是在追求数字、算法和系统驱动。我认为,计算机视觉为产业做的最大的贡献是通过计算机视觉形成的系统,能够对线下物理世界的信息能够做数字化。同时,数字化的信息最终能够 fit(适配)到决策系统。便利蜂就是这样的新零售公司。
张磊:我们看到计算机视觉在开始走入越来越多具体的应用场景,例如工业视觉、新零售,还有其他的领域当中。过去十年,计算机视觉有了非常大的突破,如果拿现在的技术穿越到十年前都是黑科技。同时,我们开始看到技术已经开始面对更多的落地问题,我们也有很多非常优秀的研究人员进入企业里面去看具体的问题。今天请几位嘉宾都分享一下在他们从事的行业里面,碰到过有什么样的问题?问题场景有什么特点?
徐一华:PPT 上写的,我们公司内部讲法叫“1+6”,一套工业 AI 能力平台,深耕工业领域的六个细分行业。目前我们占比最大的是消费电子,PCB、半导体等等,这是我们深耕的六个方向,也是公司目前业务的结构。
张磊:工业视觉里面,第一步是成像的问题,首先要把成像拍清楚才能考虑后面的视觉算法。有什么实例分享?
徐一华:打个比方,现在讲得比较多的是手机玻璃的缺陷检测,我们做这个项目到目前为止做了三四年,三四年里面大概有 1/10 的时间花在算法的研发上,剩下有大概 20%、30%的时间花在整个设备的搭建上。这还不是我们花时间最多的,我们遇到最大的挑战是怎么把玻璃洗干净。在工厂环境里面,玻璃再怎么干净都会有很多灰尘,高倍率放大之后灰尘和缺陷一模一样,特别是二维成像的技术不可识别。在真的进入检测机之前必须要用各种手段把它洗得非常干净,所以玻璃清洗成为我们花时间最多的。我试了十几种方案,我说我们差不多要成为玻璃清洗的公司了。
产品和技术的挑战,它是 360 度的。我认为算法用深度学习或不用深度学习并不是里面最高技术含量的部分,也不是最大的挑战。工业界的场景还有一个点,我们讲深度学习前提要有大量数据,但是工业界的场景获得大量数据比较困难,所以我们往往是小批量数据下把算法调出来。事实上,一般会是传统的视觉算法和深度学习某种程度的结合,结合点在什么地方最优?只能在实验中去试。
张磊:真正进入工业领域,要考虑机电控软,机是机械,电是电子,控是控制设备,你要跟生产线对接,然后是软件算法,其实每个环节都不能缺少。
曾文军:微软的应用场景,我团队参与了一些,涉及到跟微软视频、分享平台以及和远程流程控制相关的图像视频的处理意见和决策方面的场景。在视频方面有实时和延迟方面比较严格的要求,这里显示了两个微软的产品:一是微软的视频分享平台叫 Microsoft Stream,我们也把它叫企业的 YouTube,是做视频的存储、搜索、分享方面的平台;二是视频会议以及合作平台叫 Microsoft Teams。这两个都是视频平台,但是对实时的要求,对延迟的要求非常不一样。右边 Teams 是交互式应用,对延迟的要求非常严格。原来我们开发过一个去噪声的工具,优化后它可以在左边的 Stream 上做到实时,性能也非常好,可以用。当把它用到右边 Teams 交互式平台上,实际上就没法满足交互式延迟方面非常严格的要求。最后我们只好用另外的结构开发一套具有同样功能但能满足延迟方面的工具,被迫用两套工具解决两个问题。
右边显示的是 Together Mode,可以把视频头像抠出来放在共享虚拟的背景下,达到昨天讨论的加点温度的用户体验,也可以说是元宇宙的应用。这里可以看到它对时延要求,对模型的大小、复杂度要求非常高。所以你必须开发一个软件,这里做的是图像分割非常经典的计算机视觉的任务,你不得不被限制在非常小的模型,复杂度非常小的模型上,这样可能不得不为了满足时延的要求损失一些性能上的要求。作为视频来讲,相比其他的视频的任务可能有些自己的特性和挑战性。
张磊:这个问题还是挺难的。因为这么多人的光照背景差别非常大,把这些人简单的拉到一起,放到一个画面里,还是很不容易做好的,有很多非常细节的问题需要解决,同时还要考虑实时性和传输的连续性,非常不简单的问题。
华刚:我展现的是门店里用一个机器人以及相应的相机做三维重建和语义抽取,把门店的所有货架和位置都能识别,并且机器人上安装的相机把商品图摄取后,识别出来形成完整的数字化商品陈列信息。这个信息对我们的商品管理,上接到物流,下接到对用户需求的预测,都是非常关键的信息。我们这套系统要在几千家门店同时运行,而且又是软硬结合的系统。我认为现在像门店那种相对可控的环境中,算法不是太大的问题。更难的是运维的问题:怎么能够保证这几千套硬件系统在我门店运营时保证尽量少出错,并且在出错情况下快速的 Fix(修正)。这是很关键的问题,能保证整个系统 24 小时能够健壮运行的重要保证。
软件算法的可运维性,大部分计算机视觉算法是基于统计的方法做的。这就决定了很大程度上你的算法不可能是 100%。当你出现一个错误时,怎么能像一个软件 Bug 一样快速的 Fix 它。在纯统计学机制下,对这一类型 Bug 的 Fix 并不是那么友好。你出了一个错,可能短时间内不能一下 Fix,所以系统会不停的出错。而这对于一个 24 小时运营的系统,是系统不能接受的,有没有相应的算法能把整个模型置于可运维的状态,出了错能快速 Fix,包括软件、算法。这是我们过去几年研究开发工作中的痛点处理的问题,所以我们整套设备能够复现算法的 BUG 并且及时处理掉。
张磊:系统的问题比算法的问题还要重要。这么复杂的系统,多个门店、多个系统 24 小时不间断运维,本身是非常有挑战的系统问题。系统里如果出了故障,比如算法的故障,现在基于统计学习的模块,是不是有些办法能做快速的修复和弥补,这对研究来说也是一个新的问题,应用场景催生出来的问题。
张磊:大家原来都在大的公司或者大的企业工作过,开始进入到创业者的角色时,体验以及觉得最大的体会,和以前有什么不一样?
徐一华:我都有点忘掉了当年在微软工作什么样子了,在微软研究院 4 年(2001-2005 年),应该是我这一生中最开心的 4 年,这是毫无疑问的。当时在 Harry 的带领之下,没日没夜写论文,虽然写出来的都是 Junk Paper,但还是觉得学到了很多东西,非常开心。
出来创业,我从一个科研人员到一个产品经理,从一个产品经理到一个企业经营者。整个心路历程,大概花了至少 6-7 年时间,2006 年从微软出来,大概 2012 年左右,我才觉得自己对于整个企业特别是硬科技,和互联网、软件企业和单一工种的企业又不太一样。我们从技术学科上讲,刚才提到光机电算软,除了声学不怎么涉及,其他所有学科都涉及了。
销售也是大客户、小客户都有,经销、直销都有,我们做的又不是 To C 的领域,To C 直观一点,自己是产品的设计者又是用户,但 To B 自己不是用户。整个链条,至少到 2012 年左右我才觉得自己大概能 Hold 住公司的方方面面。
张磊:这个阶段有生存的压力吗?
徐一华:我觉得不叫生存的压力,叫生死的压力。我开始创业是在北京,那时候微软的工资算挺高的,但从做企业的角度讲,这点钱根本不够花,很快就花完了,花完了就卖房子。那时候在北京买过一套房,60 万买的,隔了两年一卖,100 多万。我那时候就觉得房地产是非常有希望的行业,我很后悔那时候没有及早进入到这个行业。但这点钱也很快就花完了,就找亲戚朋友借钱,亲戚见了我开始躲了,基本上山穷水尽。
当时 Harry 主动找到我,说你这个公司在北京没法做,你去苏州,那里有些创业资助的项目,可以给你资助。去了苏州之后,我们就活过来了。我内心里还是很感恩苏州的,当然给苏州也做了点贡献。他投我的钱,八九年变成 200 倍,也算是投资了一个比较成功的案例。
张磊:一华给大家又分享了一下他创业的历程,这和以前在公司里工作是非常不一样的,这是做得比较久的企业了。
徐一华:肯定,在大企业里,平台的力量是决定性的,但创业时的挑战,完整度和全面性完全不同,乐趣也不一样。
张磊:非常不一样的挑战,做研究也很有挑战,我们自己也经常讨论说做研究也是一种创业,要去探索一个未知的领域,要做一些了不起的工作,关键是要有这种心态。
曾文军:我总体的感觉是创校比起一般的创业更复杂一点,因为涉及到的面非常广,需要有大的土地,需要有办校经费、师资、学生,需要得到教育部、省、市的支持,也需要和中央、省市的规划保持一致。总体来讲,办校这个事情是非常复杂的工程,周期长,见效慢,可能需要有情怀,需要有一些远见和耐心,要办一些新型的研究型大学,还要敢为人先。
张磊:非常难得的体验,创业容易创校真的非常非常难,尤其是十年育木百年育人,一个学校起来非常非常花时间,希望我们这样一个新型的研究大学能够越办越好。
华刚:在微软时,它的整个盘子比较大,能给我们这些研究人员相对比较大的空间,我们作为研究人员,在微软是很幸福的。因为我们很多时候只用做 0 到 1 的事情,把一个技术从无到有做出来。这是很幸福的。
我加入创业公司后,最大的体会是现在我不仅要 0 到 1,还可以 1 做到 100。这个过程会有一种全新的不同的体验。现在我们在整个项目规划时,会有一个通常的规划。我们在整个业界不同的公司经常会有的一个争论是项目应该是业务驱动还是技术驱动,从我的角度来说没有业务驱动和技术驱动的区分,它们本来不是对立的。我们做事情应该是业务导向、技术驱动。任何项目的形成,需要有一个业务的需求开始,回到技术的研发,然后去驱动业务的成长。IDEA 说从需求出发,回到需求去,我很认同,项目好了之后再进一步深挖,用技术把我们的需求推进到最极致的情况。这是我在创业公司和在微软这样大公司工作体会的最大不同。
张磊:非常有意思的分享,对我们 IDEA 的总结也非常到位。我们起点是以数字经济作为起点,看到这些问题来做我们自己核心的能力、研究的能力,希望这些技术再回到应用产业里,能真正的解决问题。这也是非常好的循环,如果能把这个循环打通,可能这个事情就成功了。
华刚:过去十年中我们一直在找计算机视觉所谓的 Killer application 在什么地方。起码对于我自己来讲,计算机视觉的 killer application 是说我们怎么能够把线下信息进行数字化后,去颠覆很多传统行业,能够提升它的数字化生产力。这是我自己对计算机视觉的一个理解,在这个基础上,我认为计算机视觉的黄金时代才刚刚开始。
曾文军:我想说的前半句是:道路是曲折的。刚才大家聊了很多,计算机视觉落地有很多挑战,大家应该要做好思想准备,要有耐心,去做一些比较持久的努力。后半句是:前途是光明的。昨天论坛上很多嘉宾讨论到三维或者更高维的元宇宙,有人相信他们的前途,也有资本愿意投,我们做二维、三维的视觉就不用怎么担心了。
张磊:如果要做更前沿的工作,要到大学里去做。文军校长以身作则,到学校里去创立这么一个环境。
徐一华:我觉得连我这样的人都能做一个上市公司,在座各位大可以足够自信,肯定能做非常非常了不起的事情。AI 这几年突然变得很受欢迎,但其实最后还是要回到为客户服务,还是要回到过日子,还是要创造客户价值。归根到底,商业里唯一永恒的可能就是客户价值。这是我的观点,谢谢!
张磊:关键还是给用户带来核心价值。