量化投资的哲学基础4:科学哲学家告诉你怎样避免过度优化

量化投资的哲学基础4:科学哲学家告诉你怎样避免过度优化

系列前三篇文章如下:

量化投资的哲学基础1:量化投资不是“量化”投资

量化投资的哲学基础2:笛卡尔说,股票多因子模型是个好框架

量化投资的哲学基础3:休谟说,量化投资模型都是过度优化

%% =======================================================

1. 引子

在上一篇文章中,我们发现量化投资主要通过归纳来获得知识,即从历史数据中寻找规律来构建量化模型。

然而,休谟问题告诉我们,归纳方法有致命的缺陷。哪怕我们观察到的所有的天鹅都是白色的,我们也不能断定所有的天鹅都是白色的。把同样的问题放在量化投资领域:哪怕一个量化模型在历史测试上非常有效,哪怕一个量化模型在实盘中也非常有效,过去的都过去了,未来是未知的,我们也不能断定这个模型将有效下去。

量化投资领域,人人都会对“过度优化”谈虎色变。而休谟问题就是过度优化问题的终极形态。

幸运的是,休谟问题直接催生了科学哲学这个哲学分支,一代代科学哲学家哲学家为解决休谟问题前仆后继,诞生了大量光辉的思想。我们能够从科学哲学家的思想中吸取大量的营养。

2. 孔德与实证主义

本系列文章写到这里,才提到了第一个科学哲学家。

孔德是实证主义的创始人,也经常被认为是第一个科学哲学家。实证主义是现代科学哲学的第一个流派,也是西方哲学由近代转入现代的重要标志之一。

孔德提出人类的思想经历过三个阶段:

  1. 神学阶段:人类通过超自然的神来解释事物发展的根源。
  2. 形而上学阶段:人类通过超经验的形而上学来解释事物发展的根源。
  3. 实证阶段:人类通过实证性的经验观察去发现现象之间的关系。

孔德认为追求终极原因或者绝对知识是徒劳无益的。而实证阶段是人类知识发展的最高阶段。科学方法是一切领域要遵循的方法。科学方法的目的是通过观察和实验来发现自然规律,并适应实践的目的。

因此,根据我的理解,孔德认为休谟问题是无解的,也是不重要的。孔德的思想是一种“投降主义”,但并不是没有意义的投降。

在量化投资领域中,任何人都想追求高收益,低风险和大资金容量的策略。但是任何一个策略只可能满足其中两条:高频策略通常资金容量小;Alpha策略通常收益率低;CTA策略通常风险大。在给定的资金容量下,一个“聪明”的策略可能可以在一个“愚蠢”的市场中获得较高的风险收益比。但是,总会有力量能够把一个策略的风险收益比拉回平均水平。交易的“圣杯”是不存在的。

孔德的思想启示我们,放弃追求过高的风险收益比,就能够帮助我们避免过度优化。

3. 波普尔与证伪主义

波普尔是证伪主义的创始人。他认为理论不能被证实,只能被证伪。波普尔认为他最终解决了休谟问题。

我们再看白天鹅的例子。我们观察到的天鹅都是白色的,但是由于休谟问题,我们不能断定天鹅都是白色的。不过,天鹅都是黑色的结论是可以轻易被否定的。换句话说,根据观察和理性的思考,我们不能证实天鹅都是白色的,但是我们能够证伪天鹅都是黑色的。从白天鹅的例子推广开来,我们不能通过归纳获得绝对的知识,但是我们可以用归纳和理性来否定大量的理论。而研究的意义就是不断提出理论,然后寻找证据来否定这些理论。

波普尔把理论的进步比喻成理论的“自然选择”。我们能够通过归纳来淘汰理论,正如一些生物会灭绝。那么,还有理论没有被证伪,正如一些生物能够适应环境而暂时没有灭绝。因此,我们对待理论的态度就变化了:我们应该提出大量的理论,我们应该对每个理论保持怀疑的态度,我们应该淘汰掉被证伪的理论,我们应该姑且使用尚未证伪的理论。

我们再回到量化投资领域。量化投资可以通过历史测试来证伪一个投资理论(一个想法或者一个系统)。然而对于主观投资者来说,他要证伪一个投资理论的代价是巨大的。主观投资需要大量的交易时间来实践这个投资理论,才能证伪这个理论。而对于量化投资者来说,用程序来历史回测几年的交易可能只需要几秒钟。更重要的事,主观投资者证伪一个投资理论必然通过真实的亏损。而量化投资者只需要一段模拟出来的资金曲线就能够证伪一个想法。因此,量化投资者通常能够轻易打败一个初级的主观交易者。当然,一个主观交易者的投资理论经常是不能证伪的,因此往往陷入一直亏损无法自拔的状态。

那么,我从证伪主义得到启发,量化投资者首先应该放弃“十年磨一剑”,因为没人知道这把剑是否已经“过度优化”。而量化投资者应该打造“十八般兵器”,然后在实践中淘汰不能适应市场的兵器。而似乎WorldQuant就采用了这样的思路。

波普尔的思想启示我们,多多开发策略,淘汰掉不赚钱的,使用还能赚钱的,然后继续多多开发策略。

4. 皮尔斯和Abduction

在演绎(Deduction),归纳(Induction)之外,皮尔斯提出了第三种推论方法溯因推理(Abduction)。

我们重新以白天鹅的例子将这三种方法比较一遍。

  1. Deduction:天鹅都是白色的。湖中的鸟是天鹅。因此湖中的鸟是白色的。
  2. Induction:我们观察了很多天鹅。这些天鹅都是白色的。因此天鹅是白色的。
  3. Abduction:湖中的鸟是白色的。天鹅都是白色的。因此湖中的鸟是天鹅。

Deduction在前提正确的情况下一定是正确的。Induction是科学中最常用的方法,尽管面临着“休谟问题”。而Abduction是一种逻辑上非常弱,但日常生活中常常用到的推理。面对一个现象,我们往往可以提出多个可能的解释。而Abduction就是选择最有可能的那个解释。而Abduction往往与Inference to Best Explanation(IBE)这么术语混用。

再举一个例子。小明和小红在星巴克聊天。八卦的人可能会猜测他们为什么在一起。在谈恋爱?在聊工作?甚至是偶遇?这些都是可能的解释。而我们再给一个线索,他们的桌上有朵玫瑰。那么大多数人的都会猜测他们是在谈恋爱。尽管他们也有可能是在聊工作,玫瑰花是上一桌客人忘记并留下的。尽管他们也可能只是偶遇,小明正带着玫瑰花等他的女友,只是偶然和小红聊天。但是,我们会认为他们在谈恋爱是最有可能的解释。

那么Abduction直接引出了下一个问题,既然多个猜想都能解释现象,那么什么样的解释是最有可能的?或者说,什么样的理论最有可能是正确的?

这个问题的答案几乎是我在学习科学哲学中最大的收获。也是一些哲学家心目中休谟问题的最好的答案。一个好理论通常满足以下四个条件。

4.1 内在机制

有内在机制支撑的理论是更好理论。

回到白天鹅的例子。两个论述,天鹅都是白色的,北极狐都是白色的。我认为第二个论述更优。白色是北极狐的保护色。黑色的北极狐在冰天雪地中更容易被发现,不利于北极狐潜伏着捕猎和躲避更大的捕食者。因此黑色的北极狐很难将自己的基因传递下去。

(在哲学家的头像中乱入了一个奇怪的东西:知乎的吉祥物北极狐刘看山)

那么回到量化投资。我们对比两个alpha策略的因子,比如一个月反转因子和PE因子。我们很难解释一个月反转因子为什么有效。为什么人性的追涨杀跌在这里不起作用了?之前很多知乎er说可以通过投资者交易心理演绎出技术分析。那么,请演绎说明为什么在国内的各种期货上都是动量,而在个股上通常都是反转。

但是我们却能很好的解释PE因子为什么有效,毕竟PE低的股票的价值被低估。理性人当然会购买性价比更低的东西。

因此,以基本面分析为代表的演绎推理又在这个层面上重要起来。固然,一个经过演绎推理出来的模型不一定有效,归纳推理是关键。但是同样能够功能通过历史测试的两个模型,一个有演绎推理的支撑,一个没有,我们会认为前者是过度优化的可能性更小。

4.2 说明力:广度

在很多领域都有效的理论是更好的理论。

继续回到白天鹅的例子。两个理论,天鹅都是白色的,北极狐是白色的。我们进而发现,不仅仅北极狐是白色的,北极熊也是白色的,北极狼也是白色的,在北极生活的小海豹也是白色的。因此我们发现大量北极生物都是白色的。因此,我们认为北极狐是白色的这个理论更有效。

那么回到量化投资,你开发了一个模型,在RB上有效,在CU上就很差了。那么这个模型过度优化的可能性就很高。你开发了一个模型,在小盘股上有效,在大盘股上无效,那么这个模型在小盘股上持续盈利下去的可能性也很低。

4.3 说明力:定量

能够定量解释的理论比定性解释的理论更好。

再一次回到北极狐的例子。两个理论,北极狐是白色的,越靠北的生物的颜色越白。我们认为第二个理论更好。因为第一个理论只将自变量分为了北极和非北极两个状态。而第二个理论的自变量是纬度,是一个连续的变量。因变量可以是动物毛色接近白色的程度,也是连续的。自变量和因变量的关系可以用Pearson's Correlation来度量。

回到量化投资,技术指标是典型的定性分析理论。通常给出多空两个状态,或者多、空和空仓三个状态。而多因子alpha模型是典型的定量分析理论,能够计算出来每只股票的alpha值。尽管很难有因子20个buckets的状态下仍然保持线性关系,但是仍然比技术指标的3个状态进步很多了。

4.4 简单

一个简单的理论比复杂的理论更好。

(白天鹅的例子已经很难讲下去了。因为白天鹅本身就是一个极其简单的理论)

关于简单性,最经典的例子就是哥白尼的日心说。哥白尼之前,占有统治地位的是托勒密的地心说。而经过上千年的改进,哥白尼同时期的人们已经可以通过许多齿轮建立起太阳、月亮和行星围绕地球运转的模型,完全符合我们在地球上观测到的天体运行状况。而哥白尼提出了日心说,仅仅因为这个模型更简单,即可以通过更少的齿轮模拟天体的运行。而直到100年后,才由伽利略通过望远镜的观察,证明了主要的天体是围绕太阳运行的。哥白尼更简单的模型恰好更符合实际。

我们回到量化投资,什么是简单的理论?以多元线性回归为基础的多因子模型其实就是一个非常简单的模型。举几个例子,首先,线性回归模型假设自变量和因变量之间是线性关系。线性关系是拟合问题中最简单的模型的,稍微复杂一点的模型有抛物线和三角函数等。其次,一个传统的多因子模型会通过多种办法将成百上千的因子缩减到几个因子,即假设几个因子可以解释因变量。最后,线性回归模型假设因子之间没有相关性。否则,一旦要考虑因子间的相关性,模型的复杂度就会朝着几何倍数发展。

因此,什么是简单的理论?因子越少越简单,线性关系是最简单的,因子间不相关的模型是简单的。等等。

5. 总结

我们最后总结一下,可以从科学哲学中学到哪些避免策略过度优化的办法。

第一,不要追求过高的风险收益比。

第二,多开发策略,对每个策略保持怀疑的态度,淘汰掉不赚钱的策略。

第三,跳出历史回测和PnL,看看策略本身。一个没有过度优化的策略通常是简单的,是定量的,有内在逻辑支撑,能够在大量品种、周期和市场上有效。

编辑于 2020-02-17 22:29