倍漾量化冯霁:全流程人工智能赋能量化投资
金融与数智化深度融合,共绘金融科技新篇章。东方财富、东方财富证券、Choice数据于2024年4月26日(周五)在上海举办了以“科技赋能,妙想未来”为主题的2024东方财富数智金融大会。本次大会汇聚了金融科技领域的精英与先锋,共同探讨了金融数智化的未来趋势,分享了最新的研究成果,并展示了金融科技的最新应用。
倍漾量化创始人冯霁博士带来“全流程人工智能赋能量化投资”的主题演讲,冯霁博士以倍漾量化为例,探讨了全流程人工智能赋能量化投资的方法论和前景,并指出AI将成为量化投资领域的核心技术。
以下为演讲全文:
倍漾量化还是一个非常年轻的私募管理人, 2018年9月份的时候,我那会儿刚刚加入创新工场,担任创新工场南京国际人工智能研究院的执行院长。当时我的任务是找一个可能被人工智能深刻变革的领域和方向,并在内部进行孵化。在与全球类似公司的交流中,我们与OpenAI的探讨尤为深刻。OpenAI当时有一个任务是探究纯用机器学习技术,来支撑自然语言处理这件事情。这件事情的难度很大:在之前的很多年,自然语言处理作为一个学科,会被分割成为很多独立环节,比如分词,命名实体识别(NER)等等,背后依赖了大量的领域知识。量化其实也很像,金融工程作为一个学科,会把量化交易割裂为不同环节,比如定义因子,构建策略等等。当时一个比较激进的想法是,我们是否可以把自然语言处理这件事情,纯粹当作一个数据驱动的机器学习任务去做?很显然Open AI的人做到了。当时我们的想法也类似,我们觉得至少在周度到日度以内换仓的交易策略,也许能够完全用机器学习技术做支撑。这个是我们当时的初衷。我们开始了内部的尝试,尝试效果不错,决定正式独立出来,从2022年7月份的时候正式开始做了资管,2023年1月份的时候正式对外,目前规模是40多亿的规模,目前来看还在稳健增长。我个人比较感兴趣的就是,想看看只用机器学习做量化交易,这条路最终能走多远,我称之为“全流程人工智能投研方法论”。
开复是我们首席战略顾问,对于公司的企业文化、战略定位上给了我们非常多的帮助,周志华教授是我们首席科学顾问,也是我的博士生导师,他是国际人工智能联合会议(IJCAI)的主席,很厉害的一位华人AI领军人物。
我本人的背景也简单介绍一下,我自己是做机器学习出身的,在加入创新工场之前一直在机器学习领域,主要针对结构化和非结构化数据的建模开展了一些工作。我们的团队是一个典型的"书呆子"文化的“理工宅男”式的科技公司,主要还是以计算机和机器学习方向的理工科学生为主构建的这个团队,就是这么一帮书呆子,撑起来了倍漾量化的内核。
今天我稍微花一点时间跟大家分享一些我们在用机器学习在量化交易领域的心得,我认为量化这件事情,其实只要交易决策背后的数据可被电子化存储,就可以纯用机器学习完成所有事情。
做这件事情之前,我先稍微讲一下,最近十年,人工智能到底在软件工程这个领域发生了什么样的变革。在十年前,软件工程的核心是由一个非常聪明的程序员,通过自己的专用经验写了一个算法,结合输入,获得输出。比如说我们的下国际象棋,或者搜索,排序等等。但是当这个任务逐渐复杂的时候,这个专用经验可能就不能支撑你写一个满足复杂问题的解决方案了,比如围棋就无法以程序员的聪明才智,写一系列规则打败人类,这是因为围棋比国际象棋的复杂程度高太多。
一个重要的变革是:差不多从2012年开始,随着这波深度学习技术的兴起,大家突然发现与其用最聪明的人写一个基于规则的算法,能不能让计算机自动生成这个算法?具体怎么做呢,其实就是当你喂给它大量的数据,同时用一个通用的机器学习的建模的方式,就可以产生解决这个问题的算法。我们称之为软件工程2.0时代。
这件事情是一个划时代的进步,我们不再需要自己结合专业经验写一些基于规则的解决方案了,只要判断你想解决的问题,是否拥有大量的数据进行支撑,如果是,你就基于这些数据由机器学习生成所对应的解决方案。量化交易也是一样,我个人认为调仓频率在一周之内,支撑一周之内的投资决策的所有数据目前已经被电子化存储了,也就是说,如果你的调仓频率在一周之内,其实已经拥有了所需要的数据的电子化的基础,基于这个就能做。
软件工程2.0的另外一个比较大的优势是,统一的底层技术,这些不同的行业应用,不管是计算机视觉、语音识别决策还是自然语言处理,底层的技术是一样的,相当于我们不再需要这些子领域的专才,而是需要机器学习非常棒的人,就能够解决这些问题。
大模型未来趋势方面, 从开发范式来说,是以模型为中心在逐渐变成以Agent为中心。也就是以后的开发将会围绕智能体把一个任务从A给B,把B给C,整个流程自动化。这样做的好处是会大幅提升大模型的输出质量。比如说如果让GPT 3.5的一个智能体把同一个任务来来回回反复想几次,可能会达到4.0的水平。所以机器学习从软件工程来看,开发范式逐渐从模型为中心,转到数据为中心,目前在逐步变到以智能体为中心的开发范式。
所以今天的一个结论是人工智能将会成为量化投资的垄断性的核心技术。因为我们会天生产生海量的交易数据,预测和决策是机器学习最擅长的事情。最后是机器学习系统天生有非常便捷的升级的特色。
基于人工智能的交易系统往往有两个误区,第一个误区是过拟合问题。可能大家会认为因为你用了历史数据,所以你会过拟合,我觉得恰恰相反,目前反而是很多主观交易的人在过拟合历史:就是在一个非常小的样本下,所推断出来的一些规律,而这个规律在没有见到的数据样本中不适用。但是对于交易频率较高的情况,比如我们每天所分析的逐笔交易数据有3亿笔,在这个体量下总结出来的数据往往来说是很难过拟合的,一般来说是欠拟合。
第二个误区是人工智能的可解释性差,所以不能用。我认为任何比较复杂的系统,可解释性都比较差。我本人也是IEEE的国际人工智能可解释性标准委员会的成员之一,所以对这个事情略知一二。我们的应对措施是,与其解释自己,不如设置一系列的监控,只要行为在监控系统中是一致的,就不用解释自己,彪悍的人生不需要解释,剽悍的AI也一样。其实在非量化领域也一样,比如一个顶级的人肉交易员,他会说我是盘感好,解释不出来,这个情况下,应该雇佣他吗,我觉得是应该的。对于AI系统,我觉得应该是一样的,当AI系统各指标都是一致的情况下,确实不需要解释自己。因此关键是要对一个复杂系统做好监控和分析,确保各项指标的正常。
总结一下我们的核心优势,是一个典型的硅谷理工男文化的科技公司,我们认为量化这件事情是可以被机器学习统一赋能的。我们策略实践是"我们要打造一个统一机器学习底座,根据不同的风险偏好,会产生一个光谱一样的不同的产品系列"。我们整个开发范式里面,我们的公司的部门分工,可能跟传统的量化管理人的方式不太一样。比如我们公司没有因子的团队,我们并没有专门的岗位人工的做这些因子,取而代之的是构建一个机器学习底座,自动做所有事情。
我们刚开始做的时候,觉得这个事情大概支撑2个亿的规模就不错了,但是我们做完2个亿之后发现能做10个亿,10个亿之后发现20个亿没什么压力。现在发现可能从现在的接近50亿再到80亿也似乎也可以。我们很好奇,用AI做这件事情究竟能够走多远,我们现在还是属于探索的初级阶段,我也很期待随着机器学习技术日新月异还有一些硬件的提升,我想看一下这件事情在中国A股上能有怎样最终的实践。
我就介绍这些,谢谢大家!