量化投资的哲学基础3：休谟说，量化投资模型都是过度优化

雷闻

不会写代码的哲学家不是好投资人

系列前两篇文章如下：

量化投资的哲学基础1：量化投资不是“量化”投资

量化投资的哲学基础2：笛卡尔说，股票多因子模型是个好框架

%% ===================================================================

1. 引子

系列第一篇文章，我们得出结论，量化投资是科学的投资方法，因此量化投资能够从科学哲学的方法论中吸取营养。

系列第二篇文章，我们简单提到量化模型如何提出问题，并从笛卡尔的方法论的四句箴言中得到启发：多因子模型是一个非常好的模型框架。

当多因子模型的框架确立好以后，我们需要开始寻找因子了。或者用更普遍的话说，我们需要获得知识。

知识从哪里来？最传统的方法就是演绎（Deduction）和归纳（Induction）。还有第三种方法Abduction，将在系列第四部分中详述。

2. 演绎

演绎推理，从陈述（前提）到逻辑上确定的结论的推理过程。

Deductive reasoning - Wikipedia

举个三段论的例子：

大前提：刘总的策略都是赚钱的。
小前提：L3策略是刘总的策略。
结论：L3策略是赚钱的。

我们分析一下上面这个例子：只要两个前提是正确的，那么结论就是确定的。

那么我们想想，量化投资中有哪些策略是通过演绎得到的？

套利策略是最典型的通过演绎得到的量化策略：关于衍生品的期现套利和跨期套利、从Put Call Parity推导出来的看涨期权和看跌期权套利、ETF套利和分级基金套利等等。

这类策略的特点有几点：1. 策略都是教科书式的，因为众所周知。2. 策略的收益在建仓时就已经锁定了，也就是演绎推理的“确定”的结论。3. 因此，这类策略的获利能力取决于市场犯了多少的错误。随着市场更加理性，套利策略逐渐演变成IT的军备竞赛，策略收益很难持续。

还有一类量化策略用到了演绎推理，但是往往不能很好的符合实际情况，而用处不大，典型的是资本资产定价模型CAPM。后面会有更细致的阐述。

3. 归纳

简单论述了演绎之后，我们来讲获得知识的第二种方法归纳。

归纳是从特例到总体的不受限制的概括推理。归纳推理中，前提并不保证结论。归纳的正当性和形式是科学哲学的核心问题，因为归纳在科学方法的传统模型中起中枢作用。

Enumerative induction - Wikipedia

那么我们再用一个例子来说明什么是归纳：

前提：目前观察到的所有天鹅都是白色的。
结论：所有天鹅都是白色的。

在量化投资领域，绝大多数的模型都是通过归纳得出的。

技术分析相关的因子完全依赖于归纳。在回测之前，我们将很难通过演绎推理来判断价格将以动量还是反转来运行。我们将很难解释为什么股指期货在日内通常是动量的，而股票价格在20天的周期上通常是反转的。而即便是动量，我们也很难用演绎推理来判断动量的具体形式，也因此会诞生众多的技术指标。但是，通过回测，也就是通过对价格历史的归纳，我们将很容易得出结论。

而基本面分析中归纳也是最关键步骤。我们可以通过各种财务信息对股票进行估值，也就是所谓的演绎方法。然而被低估的股票并不必然在未来带来超额收益。极有可能存在你不知道的基本面信息，长期压制股票价格。极有可能，市场将长期无效下去。然而，通过回测，也就是通过归纳，我们将很容易地总结出被低估的股票未来的价格走势。而反过来，即便一个研发者不知道任何基本面分析知识，仅仅通过归纳，也能通过遍历发现有效的基本面因子。

因此，在量化投资的基本面研究中，归纳也比演绎更重要。

4. 演绎的CAPM，归纳的Fama-French模型

金融学中，因子模型的演进是一个非常经典的关于演绎和归纳的作用的例子。

因子模型诞生于资本资产定价模型（CAPM）。CAPM的发明者之一，威廉.夏普在1990年获得了诺贝尔经济学奖。Capital asset pricing model

CAPM模型就是典型的通过演绎得出的知识。

CAPM基于多达九条假设。1. 投资以经济效用最大化为目标。2. 投资人是理性和厌恶风险的。3. 投资人会在所有资产上做分散投资。4. 投资人不会影响价格。5. 投资人可以以无风险利率借贷无限的资金。6. 没有税收和交易成本。7. 资产可以无限分割并且流动性无限。8. 投资人的预期相同。9. 所有信息将同时传递到所有投资人。

CAPM得出了一个非常简单干净的结论：在给定的无风险利率和市场的预期收益率的情况下，股票的预期收益仅仅取决于股票对于市场超额收益的敏感性。也就是说，股票价格仅仅受到“市场”这个唯一因子的影响。

然而，股票市场千变万化，这么一个简单的模型必然难以得到足够的证据支撑。

因此，对CAPM模型的改进开始了，大致三条道路：

第一条道路，继续沿着严格的演绎推理发展，衍生出了ICAMP和CCAMP等模型。这些模型已经很少被提及了，这一条道路是失败的。

第二条道路，为套利定价理论（APT）。APT认为，资产的预期收益是不同的宏观因子和市场指数的线性函数。当资产的收益偏离了这些外部因素的影响时，套利交易将纠正这些偏离。APT模型大大放宽了CAPM模型的假设，并打开了CAPM封闭的单因子框架，引导大家去“归纳”会影响股票收益的重要的宏观因素。

第三条道路，为Fama-French三因子模型（FF）。模型发明者之一的尤金.法玛获得了2013年诺贝尔经济学奖。

FF模型和APT模型都为多因子模型。然而FF模型没有假定股票收益受到宏观因素的影响，没有假定套利交易的存在。FF模型发现小市值股票的预期收益率高于大市值的股票，低估值的股票的预期收益率高于高估值的股票，这两个因素无法用市场因子来解释。因此股票价格受到市场，市值和估值三个因素的影响。FF模型没有为后续因子的发现给出任何限定。FF模型纯粹是“归纳”出的模型。

然后，对演绎的依赖最小和对归纳依赖最大的FF模型无论在学术界还是业界都获得了成功，成为量化投资和股票多因子模型最重要的源头。

通过这个例子，我们想说明，在量化投资领域，归纳是比演绎更重要的获得知识的方法。

然而，归纳方法存在一个致命问题。

5. 休谟问题和过度优化

过度优化是量化投资领域让人谈虎色变的问题。一个模型可能在回测中取得非常高的收益和非常小的风险。然而实盘中，这样的高收益和低风险却很难复制。甚至策略一上线就失效。

我认为过度优化至少有三个层面：

第一：数据过少，以至于无法归纳出可以稳定外推的模型。这个层面的问题最好解决，可以采用更长时间和跨市场的数据，甚至采用bootstrapping方法扩大样本。

第二：模型过拟合，以至于大大低估了噪音。这个层面的问题复杂一些。

机器学习中用来防止过拟合的方法有哪些？

文章中提到了一些有用的方法来避免模型的过拟合。例如简化模型，增加随机因素和叠加模型。

第三：休谟问题。哪怕数据足够充分，哪怕模型很好地适应了全部数据，归纳出的知识是无法保证可以外推的。

回到解释归纳含义的例子。

前提：目前观察到的所有天鹅都是白色的。
结论：所有天鹅都是白色的。

然而，显而易见，天下所有天鹅都是白色的这个前提，是无法确保未来不发现黑天鹅的。正如人类历史上一样，随着地理大发现，人类终于在澳洲这个新大陆发现了黑色的天鹅。

因此，所有基于归纳的量化模型都面临着休谟问题。我们无法保证过去有效的量化模型，未来仍然能够适应市场。一旦市场发生改变，模型就会失效。本篇文章用了一个吸引眼球的标题：休谟说，所有量化模型都是过度优化。更准确地说，所有量化模型都面临这过度优化和失效的可能。

当然不仅仅是量化投资，休谟问题直接动摇了归纳方法，动摇了作为近代哲学关键分支的经验论，甚至直接动摇了初生的科学和科学方法。

6. 总结

首先，获取知识的主要方法有演绎和归纳。

其次，演绎出的量化模型要么脱离实际，要么因为众所周知而不能持续盈利。归纳是量化投资的主要方法。

最后，但是归纳面临着休谟问题，导致所有的量化策略都面临着失效的风险。

不要急，哲学家前仆后继来解决休谟问题，敬请期待下一篇：

量化投资的哲学基础4：IBE告诉你怎样避免过度优化

发布于 2017-10-29 22:49

量化交易

金融

哲学