“投资逢盛世,FOF正当时!”为了探讨国内私募FOF&MOM基金发展面临的新机遇、新趋势,由私募排排网主办,招商基金、东证期货联合主办,招商证券、方正证券、汇鸿汇升投资协办的“第八届中国FOF&MOM基金管理人年会”,于2023年7月6日-7日在上海浦东嘉里大酒店举行。
上海启林投资管理有限公司 王鸿勇
在7月7日下午的会议上,启林投资创始合伙人、投研总监王鸿勇出席并进行了主题为《ChatGPT与量化投资》的明星私募投资报告会。
以下为演讲全文:
谢谢主持人,谢谢排排网的邀请,今天我进来的时候看到大会的主题是“技术驱动文明,金融赋能未来”,也跟我今天的演讲主题非常契合。
ChatGPT会越来越智能,很多行业会被颠覆
首先,我们知道量化投资是一个技术和金融结合的投资手段,它的投资方法也是随着技术的进步而不断演绎的。今年整个资本市场最热的肯定是AI、ChatGPT的概念,毫无疑问我们已经站在一个新的技术驱动的浪潮的起点。这个新的技术肯定会影响社会的方方面面,各种行业。国内很多互联网的公司、高校都开始进入这个领域,拥抱大模型。
前段时间,国内有一家量化私募巨头也发表了公告,要追逐大模型。坦白说,我们是没有能力做大模型研究的,这是不一样的应用领域。但是我们对于前沿的技术也在不断的学习,ChatGPT刚出来,我们公司就鼓励各员工多开始应用这个技术,以提升工作效率。我现在基本上每天都会用ChatGPT帮助我写代码、查资料,其实是非常方便的。
我也花了很多时间来学习、了解ChatGPT的技术,包括Open AI公司发展的历史,以及思考这个技术对未来社会、对量化投资会带来怎样的启示。今天,希望借此机会跟大家做一个关于ChatGPT和量化投资,其实是AI在不同领域的应用,做一些对比,看看他们有什么相同的点,有什么不同的点。抛砖引玉,希望给大家一些启发。
先看一下ChatGPT的发展史。他最基础、最重要的基础网络模型大概是2017年提出来的。其实这个技术是他的竞争对手谷歌提出来的,只是Open AI用了这种技术网络。随着后面整个GPT技术的演进,很明显有一个浪潮,模型越来越大,参数越来越复杂,transformer层数越来越深。Open AI的创始人相信大就是好,大力出奇迹,只要我的模型足够大,就能够把很多信息压缩到我的神经网络里,形成我的知识。
一个基本的趋势是他用到更多的算力,模型越来越大,越来越复杂。本身这个模型在进化,如果类比成一个人的话,他变得越来越聪明,基本上GPT3的智能水平相当于一个大学生,GPT4已经是一个斯坦福的博士了,而且是里面最聪明的一位。这个过程还没有结束,后面可能还有GPT5、6、7,它会变得越来越智能、越来越聪明。
他能够不断的进化,有几个关键的点,首先他是一个工程化的生命,其实它本质上没有技术原理的突破和创新,但是他能够掌握海量的数据,运用强大的算力去实现这么复杂的模型,其实是需要非常好的基础设施的支持,和实现这个工程化的能力。这个工程化的初步的完全的实现,其实是在GPT4已经达到了。当这个工程化实现了以后,后面也开始以插件的形式去推动各种生态化的应用。
当我们跟GPT对话的时候,有时候感觉我们真的不是在跟一个机器对话,好像后面就是一个人。这也引起了一个AI安全的讨论,从碳基生命与硅基生命所进的一步,以前一个科学家提出来,如果是青蛙发明了人类,到底是青蛙掌握人类还是人类掌握青蛙?也就是说人发明了人工智能之后,当发现这个人工智能已经成为了这个世界上最聪明的人,我们人的所有认知、知识,所有的模型全都被人工智能学会了以后,未来到底人能不能真的掌握人工智能、掌握人类?他也没有很好的答案。但是,引起了很多的思考。
不管怎么样,技术的浪潮已经开始了。基本上从人类的发展历史来看,就是不断的新的技术出现,很难以人的意志为转移。所以,我们可以看到这还只是一个开始,未来会有很多的行业颠覆。
人类社会本质是三位一体的复杂系统
伴随着AI的发展,可以看到英伟达的股价也是一飞冲天,涨了整整500倍,最近他又推出了他的超级计算机、超级芯片。巨头们也都在纷纷的布局,蛋糕实在是太肥美了,大家也要开发这个芯片来防止英伟达的垄断。
前段时间百度的总裁发表了“我的大模型观”的演讲,他里面提出他对于ChatGPT这个技术,为什么是代表了一种新的技术,或者是一种新的范式,一个本质的思考。我也认真的学习了一下,也引起了我的很多思考。我会发现ChatGPT技术的演绎,推动了新的范式,跟量化投资有很多的异曲同工之妙。我先讲讲为什么GPT是一个颠覆式的技术。
任何一个结构性的颠覆性的技术,往往带来了某种本质的成本的降低。人类社会,不管是人还是一个组织、一个公司,甚至是一个数字化系统的本身,按照他的总结,本质都是一个复杂系统,是三位一体的复杂系统,包含了三个环节,一个是信息环节,也就是信息系统,从环境中搜集有效的信息;一个是模型系统,就是通过信息去建立你的模型,建立你的认知,或者是建立你的任务体系;第三个是要做决策,要行动,要基于模型做行动。
第一代互联网革命,本质上是对信息的纬度做了边际成本的极大的降低。以前大家获取信息,比如说我要知道地图怎么走,或者是要获取一个社会上的新闻,成本是很高的,可能要问别人,或者是打电话。在现在的信息时代,可以通过搜索引擎,我们把整个信息成本极大的降低了,可以理解为信息的成本几乎降为零。这是第一代系统做到的事情,把信息做到了成本为0,信息无处不在,我们现在就处于信息爆炸的时代。
第二代系统是现在ChatGPT技术带来的新的系统,我们叫做模型时代。第二种范式开始演绎了,整个社会的模型会无处不在。模型的本质是什么?本质就是知识,信息的有效压缩变成的知识。人脑袋里的所有认知都是知识。通过大模型的技术,工程化的实现,会把模型的成本也降到非常低。虽然现在还是比较贵的,但是我们知道有著名的摩尔定律,随着技术的发展,成本会逐步的降下来,算力会逐步的提升上去。进入模型时代以后,获取知识的成本就变得极大的降低。以前的知识可能存在很多的地方,现在的知识存储在神经网络里,通过预训练的模型,把信息有效压缩以后,知识的存储介质发生了变化。
第三代系统,就会实现行动的降低。典型的是人工智能、机器人,有了模型之后怎么行动?我们会变得非常的简单。比如说这个房子,未来可能会有很多的智能设备,我们要到一个什么地方去,点一个按纽就可以轻松的到达,这可能是未来会发生的事情。
如果第三个系统也实现了以后,最终的形态可能是实现人和机器的有机协同、有机结合,这可能是未来所谓的结合的新的形式的演绎。
ChatGPT与量化投资有很多异曲同工之妙
为什么我说有异曲同工之妙?量化投资本质上也可以理解为三个过程,也是信息系统、模型系统、决策系统。我们从金融市场中搜集海量的金融数据,从里面提取有效的信息。这也是我们做量化策略的第一个环节,就是大家以前经常听说的“因子”。大家最早做量化,一开始都是在研究因子,甚至最早的因子怎么来?来源于人的主观投资的想法,比如说会看一些什么样的技术指标,或者对于一个数据有什么样的常规的经济学的理解,会把这些理解变成一些因子。这些因子,就是从数据中提炼的基础信息。
所以,最早量化投资刚开始的时候,我们也在第一个阶段,专注于信息效率的降低,把信息获取的成本降低。我们需要想办法把Y因子的效率提升,所谓的效率提升就是把开发因子的成本降下来。我认为这是第一代做量化比较专注的事情。
当时大家在模型层面反而是做得比较简单的,但是会用比较多的简单的线性模型,不管是国内还是国外,最早的量化都是这样过来的。
AI赋能到量化投资的第一步,就是开始在模型问题上,大大的提升模型效率。模型从简单的线性模型往非线性模型上开始演绎,而且通过各种各样的AI基建,把模型成本边际降低。现在经常说我们有很多策略、很多模型,要提高的是开发模型的效率。每次做一个模型,可能要做很多的实验,怎么把这个实验效率提高、成本降低?也是现在量化投资还是非常专注的问题。所以量化投资本质上也可以理解为现在是第二代系统,模型的问题是大家现在比较核心关注的问题。
如果再往后看,第三个问题就是有了很多的模型,有了很多的信号,怎么做决策?怎么生成交易指令、交易决策?是大家随着模型越来越多、越来越丰富,也开始逐步重视的问题。我认为这也是未来量化投资大家会比较关注的技术问题,和大家研究的关键方向。
所以,AI在金融领域最重要的应用就是量化投资。AI人工智能有什么样的三要素呢?数据、算力、算法。不管是量化投资还是ChatGPT,都是建立在海量的数据和及其庞大的算力基础上,才能开展关于AI应用的,这也是为什么大家可以看到各个头部的量化私募都开始有自己的机群,有自己的超级计算机。
对比一下数据的纬度,我摘取了海外一家以数据丰富著名的对冲基金,他掌握的数据源是1万个,累计的数据总量是144TB。如果你对比ChatGPT的数据量,金融数据的体量一点都不比ChatGPT的训练数据体量小,他们大概是在TB量级,我们做量化投资的数据量是非常非常庞大的,ChatGPT做一次训练可能需要几万张卡,要训练好几个月的时间,才能处理这么一个数据量。
我们的数据量,从数据总量来说是非常庞大的。如果说到数据,不光应该关注数量,还应该关注质量。ChatGPT之所以训练只用了这么多数据量,不是说他不能用更多的数据,而是它的训练需要非常高质量的数据。这也是未来我们做投资非常关键的一环节,我们不是光追求数据的数量有多少,总量有多大。而是越来越关注数据的质量,因为高质量的数据才能有助于我们开发出非常有效的模型。
算力也是基础,不管是做ChatGPT还是量化策略都需要越来越强大的算力,来给我们提供数据处理的知识和模型训练的知识。这两个基石需要以它为基础,来做很多的算法的研究,所以算法是第三个要素。算法的后面是人,是非常顶级的人来开发各种各样的算法。
刚才讲了ChatGPT是工程化的事情,本质是它对你的基础设施有非常高的要求。所以如果想做AI的研究,你一个非常关键的点就是基础设施的infra的搭建,包括计算机、CPU、GPU怎么管理,包括IO的带宽,怎么能够处理海量的数据,以及网络架构怎么样架构。所以这是一个非常庞大的、也是一个非常有挑战的工程,是需要非常非常多的、不同方向的技术专家,才能把这个基础设施逐步的搭建得越来越完善。
所以,哪怕是现在,ChatGPT的基础设施也还是处于不断完善的过程中,需要越来越多算力的过程中,也提出了越来越多的技术挑战,它的基础设施,GPT4才是刚开始实现工程化。所以为什么它需要那么大的资金的投入,就是因为它需要海量的算力和非常庞大的基础设施,来支持他做这个研究。我相信未来量化投资,为什么现在要招聘那么多的IT工程师?大家都在努力的把基础设施做得更加完善,才能应对后面的挑战。
刚才讲了算法的核心是人。围绕着人,怎么组织?需要怎样的人?怎么样管理人?不管是ChatGPT还是量化投资,这都是最重要的问题。ChatGPT团队的人才是非常精英的,他的人虽然比谷歌的团队人员少,但是他是一个非常精英化的团队,而且是多元的团队,通过团队作战形成合力的做法来推动这件事情,所以他们把这件事情做成了。
这个行业的人是最关键的,并不是说有了数据、有了算力,就能够天然的做好AI这个事情,或者是天然就有很多的算法。所有的算法都离不开人在后面的研究、驱动、不断迭代。量化投资也是从以前比较蓝海的时代,一两个人、两三个人就可以做出非常有效的策略,进化到现在不光需要非常好的基础设施、算力支持,还需要非常优秀的人,以更加团队的形式去协同作战,才能在未来开发非常有效的量化投资的策略。这一点也是非常类似的。
AI能取代量化吗?
说了这么多两者相同的地方,很多人也会问我一个问题,如果Open AI做量化投资,会不会把你们颠覆掉?或者是我们用ChatGPT来做投资,可不可行?它是不是真的有可能在未来某个时间点,完全的取代量化投资?
首先不完全排除这种可能性,但是我们要看到,目前来说ChatGPT这种技术应用的自然语言处理领域,跟我们做量化投资这个领域还是有很多的不一样。
我认为最本质的两个不一样在这里:一是金融市场整个信息是非常非常低信噪比的市场,也就是说这个市场的噪音非常多,真正有效的信号非常少。反映在做策略的角度,就是过拟合的风险非常高,基本上每一个做量化投资、用AI做量化投资的人都经历过,一开始做一个策略用到一个神经网络,一跑,历史回撤非常的美如画,一实盘,一纸回撤。这种经历,可能大家刚开始做量化策略的时候都会遇到。我也会告诉我的研究员,如果你写的策略,历史太好,肯定是错的,或者是过拟合。
这个市场本身是低信噪比的市场,就不像ChatGPT如果预测一段文字,下一个单词可能是什么,它的准确度可以做得非常高,他预测的准确度是远远高于金融市场的投资的。所以他对模型训练的过拟合的影响、理解,跟量化投资有很大的不一样。
另外是非稳态问题。金融市场是一个变化的市场,是一个不断动态演绎的市场,ChatGPT现在做一次训练可能需要几百万美金或者是千万美金的量,才能训练好一个模型。而我们量化投资的角度,策略都会失效。市场在不断的变,我们只是不断的开发新的有效策略,但是如果我们开发一个有效策略需要几百万美金,这个策略可能后面还会失效,这是不太能接受的。这也是一个很大的不一样的点。
也就是说我们的问题是长期的,我们更关注的是怎么样能够持续的开发新的有效策略,因为我们面对的是一个不断变化的市场,而不像ChatGPT,本身要解决的问题是一个相对稳定的。这个猫是一个猫,就是一个猫,或者这个知识是这个知识,虽然可能未来会发生变化,但是这个变化是非常非常缓慢的,在很长一段时期他要解决的问题或者要沉淀的知识是不会发生变化的。这也是一个本质的不同。
基于这两点,我个人觉得ChatGPT想要取代量化是有很大的难度的。如果未来真的发生了这么一件事情,那市场的有效性假说就真的存在了,那就成立了,这个市场会变成一个完全有效的市场,也就不会有所谓的alpha收益的存在了。
量化投资发展的4个阶段
量化投资也是在不断演绎的,顺着刚才的介绍可以看到量化在国内的演绎过程可以分为若干个时期,我们总结下来,现在大概是处于量化的4.0时期。
每个时期有什么特点?1.0时期是量化最简单的时候,当时大家专注于精修单因子,找到一个有效策略就可以在市场上赚钱了,因为当时的市场非常的无效。比如说买小票也可以跑赢沪深300的指数。
真正开始有比较范式的,大量的量化公司兴起是2015年,我们叫做2.0时期,这个时期的典型是多因子,大家都说我有多少个因子,我怎么开发因子,我因子的评价逻辑是什么样的,我们叫做量化的2.0时期。这就是我刚才讲到的,这个时候大家是比较关注信息效率的提升,或者是因子开发效率的提升。
3.0时期,就是开始用非线性的方法,用神经网络来推动我们把预测性做得更好,推动我们在模型上不断的演绎。在这个过程中,我们也发现AI的技术确实能够非常有助于我们挖掘市场上不断的有效的alpha。
在现在的4.0时期,准确说是从去年开始逐步到现在,已经看到AI的技术在量化投资领域全方位的、各种纬度的应用,包括深度学习的前沿算法,包括可以借助一些分布式的集群来实现更好的算法的场景的落地。也包括我们有一些机器学习的方法,来处理一些另类的数据,比如说处理一些新闻的、舆情的数据,提炼出一些有效的信息。所以,AI的技术在量化现在发展的过程中,它体现在方方面面,已经不是单纯的在模型这一个纬度。
如何保持量化投资的核心竞争力?
展望未来,什么样的量化公司能够在未来持续有竞争力?能持续保持在行业中的成功?我们觉得有两点非常关键:
一是效率,它始终是最重要的。任何一次大的社会变革、技术变革,往往是把某方面的效率极大的提高,让成本极大的降低。量化投资作为一种技术驱动的方法论,对效率的追求就是永恒的核心。
怎么样能够提升研究策略、开发策略的效率?这是需要在方方面面努力的,真的已经不是一个纬度的问题。包括我们刚才讲到的基础设施的建设、团队的管理,各种数据怎么样处理、利用,这些方方面面、点点滴滴效率的提升,都会导致一家公司在整个量化投资方面有更强的竞争力。
二是风险。金融市场是变化的市场,没有什么策略是永恒有效的,我们对市场要一直怀有敬畏之心。风险是模型不断演绎的,ChatGPT发展最核心要解决的问题就是安全问题,安全就是他的风险。我们做投资的,对风险怎么管理、怎么理解,也是未来量化私募、量化公司成功的关键。我们也在持续的加大研究力量,不断对风险有更好的管理和把控。
(责任编辑:赵艳萍 HF094)