民营企业与幸存者偏差

本贴最后更新于 2467 天前,其中的信息可能已经斗转星移

一次统计数据背离背后的逻辑和讨论

​假期里《流浪》一文流传甚广,可惜刷屏时我在跟朋友喝酒,知道这篇文章的时候,网上已被删干净。昨晚有朋友询问,我特意找出这篇文章,看了几遍,发现一个很有意思的话题,结合之前读过的几篇报告,随便写了点儿东西。

文章最核心的两张图表是**“规模以上国企和民企营收/利润增速对比”​**,分别如下:

​每张图的红框里,都有两栏数据,分别是政府公布的同比增速,和自己计算的同比数据。两张图表,反映的都是一回事:规模以上工业企业收入/利润增速的”背离“。

在这里简单解释一下什么叫背离:每年国家统计局会统计”规模以上工业企业“的经营数据。这里的”规模以上“,是指营收和利润的某种门槛,比如当前的标准是"主营业务收入在 2000 万元以上的工业企业。”

OK,标准有了,我们现在做一个假设:在 2016 年,全国只有两家企业满足”规模以上“的标准,A 收入 8000 万/年,B 收入 2000 万/年,国家统计局对 A 和 B 进行了统计,给出了两个数据:

2016 年. 主营业务收入:累计值 8000+2000=10000 万

2016 年. 主营业务收入:累计同比 10000 万 ÷2015 年 A 和 B 公司的收入之和-1

到了 2017 年,假设由于某种原因,A 收入变成了 9000 万/年,B 收入变成了 500 万/年,那么按照标准,B 不够门槛了,统计局只会统计 A,给出了两个数据:

2017 年 主营业务收入:累计值 9000 万

2017 年 主营业务收入:累计同比 9000 万 ÷8000 万-1 =12.5%

在上述计算中,统计局认为 B 公司不再满足“规模以上”的标准,因此在算累计同比时,将 2016 年的数据也做了调整,调整到只剩下 A 公司。这种调整,从逻辑严密性上来讲,并没有什么问题。

但问题在于,如果简单地用 2017 年的累计值 9000 万,除以没有调整过的 2016 年累计值 10000 万,就会得出同比增速=9000/10000-1 = 负 10% 的结论,跟调整过的同比数据 12.5%,形成了一个明显的“背离”。

事实上,这种背离现象,并不经常发生。因为在实际情况中,每年统计局要统计几万家企业,不可能突然有大量的 B 企业一夜之间就低于了“规模以上工业”的标准。但从 2017 年四季度开始,这种情况真真实实地发生了。

这个背离,就是《流浪》一文两张图要讲的东西,不过,这里面的原因和逻辑,文章并没有展开讲清楚,挺可惜的。

如此明显的“背离”,自然逃不过宏观研究者的视线。2018 年以来,几乎所有的卖方宏观研究团队都发布对“背离”现象的研究报告,比如华泰证券李超(20180627)和海通证券姜超(20180703)。其中姜超老师的研报比较全面,标题为《马太效应和幸存者偏差:工业利润增速“背离”的背后》,这里简单介绍一下研究逻辑和结论:

_1. 统计局主动”人为调高数据“的可能性较小,用大白话说就是造假的可能性很小。_这里姜超老师回顾了历史上的 4 次统计”背离“,其中 98 年、00 年、11 年的背离均为”规模以上“的标准提高导致。

98 年的调整导致企业数量从 97 年的 53.4 万家大幅缩减至 98 年的 16.5 万家(引发了 98 年和 00 年的背离),11 年的调整导致企业数量从 10 年的 45.3 万家缩减至 11 年的 32.6 万家(引发了 11 年的背离)。

_2. 2017 年这次”背离“,主要原因是”马太效应“和”幸存偏差“。_2017 年的这次背离主要原因也是:纳入统计的规模以上企业数量减少多导致。只不过,跟 98 年和 11 年不同的是,这次是由于去产能导致的亏损企业出清,大企业强者恒强,小企业每况愈下,就像我们假设的那样:A 企业从 8000 万增长到 9000 万,B 企业从 2000 万下降到 500 万。

_3. 马太效应并非唯一原因,统计数据主动去水分,也占了一定原因。_这里姜超提了两个问题:1. 去产能开始于 2016 年,但”背离“开始于 2017 年四季度;2. 无论是财政部发布的国企利润总额增速,还是 A 股非金融上市公司增速,都在 20% 以上。

2017 年四季度发生了什么,就是”从去年 4 季度开始,统计局加强了数据质量管理,剔除跨地区、跨行业重复统计数据。“ 这不仅导致了工业领域出现了”背离“,商品零售行业同样出现了背离,说明这其实是一个普遍现象。

综上所述,姜超老师的结论是:统计数据出现的”背离“,并非统计局”人为调整“,而是去产能导致的中小企业退场,出现马太效应和幸存者偏差而造成。另外,统计局的主动去水分,是导致”背离“从 2017 年四季度开始集中爆发的重要原因。

所谓幸存者偏差,就如同我们的假设中那样:A 企业从 8000 万增长到 9000 万,B 企业从 2000 万下降到 500 万,A 是幸存者,在 2017 年统计的时候,只统计了 A,而 B 的数据却隐藏在水面之下,这会给经济决策带来偏差,这就是幸存者偏差(Survivorship Bias)。

​这里面还有一个著名的二战美国空军的故事,有兴趣的同学可以去搜一搜,这里就不贴了。

读到这里,可能就会有人隐约意识到:**这类”消失“的 B 企业,是不是大多是民营企业?**对此,招商银行的丁安华老师进行了深一步的研究,并在 2018 年 9 月 6 号发布了报告《落花无言:私营经济的衰退》,在报告中,他分别统计了国有企业和民营企业的“幸存者偏差”,得出以下结论:

1. 进行供给侧改革的行业,企业数量有较大幅度的缩减。

​上述结论与我们的直觉相符,丁老师进行了量化统计,其将 11 个进行了供给侧改革的行业的企业数量全部统计出来,这种数据的严谨性值得赞叹。

**2. 国有企业的幸存者偏差比较小,私营企业的幸存者偏差比较大。**说明国有企业退出“规模以上”标准的企业很少,而私营企业退出“规模以上”标准的企业非常多。

​3. 前两个结论相结合,得出:在“规模以上统计”样本中消失的企业,主要是受供给侧改革冲击的私营企业,也就是说_2017 年四季度以来出现的背离,主要原因是供给侧改革行业中的民营企业退场。_

在报告的后面,丁老师同样列出了 ① 私营企业负债率提升 ② 私营企业利息开支上涨的数据。并进一步指出:2017 年 6 月,国有企业工业增加值当月同比增速开始超过私营企业。对于这次“超越”,丁老师起了一个名字,叫做“死亡交叉”。

​​

名字有点儿那啥。丁老师的报告的论据完整,最后的结论也呼应了题目:落花无言,私营经济的衰退。这篇报告的公众号版本,目前基本上都已经 404。​

从年初出现“背离”现象以来,到 7 月份姜超老师的报告,到 9 月份丁安华老师的报告,基本上结论已经完整而清晰:“规模以上工业”数据产生的背离,并不是“人为调(zao)整(jia)”的结果,反而真实地反映了中国经济版图的事实—在供给侧改革的领域,马太效应和强者恒强现象非常严重,中小民营企业正在退场。

​需要感谢姜超老师和丁安华老师等人扎实的研究,将这块谜题的拼图拼全。另外,统计数据背离,在微博上也有过讨论,大家可以关注魏姐 @pkuwd 的文章,《经济中的统计总量和同比》,讲的也很清楚。

但问题有两个:①11 个进行了供给侧改革的领域里民企的遭遇,是主动的“国进民退”,还是集中度提升的行业规律使然?② 这 11 个行业的民营企业,是不是能够代表全部的民营经济?

对于第一个问题,这里引用琦总 @ 股事琦谈 转发的某研究员的观点,相对比较认同,这里就不赘述了:

_​对于第二个问题,_答案也很简单:11 个行业的民营企业,是民营企业的一部分,但不是全部。

事实上,2018 年的中国,正处在第四次民营企业创业潮的果实收获阶段。这四次分别是,1984 年(代表海尔联想万科等),1992 年(代表复星碧桂园),1999 年(代表网易阿里腾讯),2011 年(代表美团小米头条)。

2018 年,第四次创业潮的企业前仆后继上市,动辄几百亿美金市值,它们无一例外都是民营企业。
你不能把美团小米们的辉煌,当成 2018 年民营企业的缩影;同样,你也不能用 11 个受供给侧改革冲击的行业里的民营企业,代表全国几十万家民企。这都不合适。

统计数据的背离,是一种“幸存者偏差”;用供给侧改革冲击的中小企业代表全体民营企业,是不是也是一种“偏差”呢?

想起了这样一个笑话:

三个人坐电梯从一楼到十楼。一个原地跑步,一个做俯卧撑,一个用头撞墙,他们都到了十楼。有人问他们是如何到十楼的?一个说是跑上来的。一个说是俯卧撑上来的。一个说是用头撞墙上来的。这个电梯,就是高速增长的中国经济,而那三个人,则是吹嘘各种成功学的企业家。

成功的时候,大家都会认为是自己的牛逼;不顺的时候,大多数人都会归咎于环境。这是人性的弱点。

拿民营企业杠杆率上升这件事来说:国有企业的杠杆率从 2013 年一季度的 85.5%,降低到 2018 年二季度的 84.2%,降低了一个多百分点;民营企业的杠杆率从 48%,增加到 51%,增加了 3 个百分点。很多文章简单得出结论:“只是为了活下去,中国民企选择流血加杠杆。”

但这个结论其实是有问题的。国企杠杆率降低,可能主要原因是煤钢行业的供给侧改革,但民企加杠杆的原因,就相对比较复杂,比如过去五年杠杆率飙升的地产三剑客恒大、融创和碧桂园,都是民营企业,他们加杠杆的动机显然并不是“活下去”。

反过来想,如果倒过来:过去五年国企的杠杆在增加,民企的杠杆在下降,恐怕值得喷的点更多:比如国企是坏孩子,违背去杠杆精神疯狂借钱,民企是好孩子,相应去杠杆号召反而被国企挤压。

没有人能否认,民营企业家,现在的情绪处于悲观的低谷,造成这方面的原因很多,比如融资、社保、环保、那啥等因素,不过作为投资者,应该理智的认清楚,哪些问题暂时无解(如融资难),哪些问题有可能解决(如社保),哪些问题需要正反两方来看(如环保),哪些问题是操心也没用的。

我之前跟朋友说过,群众对国家的情绪,也是由周期的。过去的三十年,中国人对家国民族的认同感,出现过 5 次高峰和 4 次低谷,我们现在处于第 5 次低谷当中。身处周期里的人,往往不自知,狂热会传染,悲观也会传染。

如何识别出这种周期,并跳出窠臼,为之所用,才是顶级投资人应该做的事情。巴菲特每在群众情绪周期底部,都是坚决看多美国,中国怎么样,大家还是得有自己的判断。

最后,再次推荐大家广泛阅读卖方宏观研究团队的报告,真心是宝库。我最喜欢姜超老师,可惜没机会给他在新财富上投票了。

顺祝中秋快乐,文章懒得发公号了。

​​​​

  • 经济
    32 引用 • 155 回帖 • 2 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    336 引用 • 324 回帖
  • 倾城之链
    23 引用 • 66 回帖 • 166 关注
  • 支付宝

    支付宝是全球领先的独立第三方支付平台,致力于为广大用户提供安全快速的电子支付/网上支付/安全支付/手机支付体验,及转账收款/水电煤缴费/信用卡还款/AA 收款等生活服务应用。

    29 引用 • 347 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖 • 2 关注
  • AWS
    11 引用 • 28 回帖 • 8 关注
  • 电影

    这是一个不能说的秘密。

    122 引用 • 608 回帖
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖 • 1 关注
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    211 引用 • 358 回帖
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 227 关注
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    17 引用 • 53 回帖 • 143 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 313 关注
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    115 引用 • 318 回帖
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    187 引用 • 831 回帖
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 413 关注
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    730 引用 • 1282 回帖 • 4 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    89 引用 • 150 回帖 • 1 关注
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 440 关注
  • 代码片段

    代码片段分为 CSS 与 JS 两种代码,添加在 [设置 - 外观 - 代码片段] 中,这些代码会在思源笔记加载时自动执行,用于改善笔记的样式或功能。

    用户在该标签下分享代码片段时需在帖子标题前添加 [css] [js] 用于区分代码片段类型。

    191 引用 • 1355 回帖
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 37 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    77 引用 • 37 回帖
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 695 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 8 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 676 关注
  • CodeMirror
    2 引用 • 17 回帖 • 168 关注
  • 安装

    你若安好,便是晴天。

    132 引用 • 1184 回帖