这里说的不是大语言模型。说的是更早就存在的另一类东西:风控公式、信用评分、量化系统、定价框架、回测曲线。

它们共同生产一种东西:看起来很精确的数字。

你的风控系统上线三个月,没出事。

领导看了报表,批准把授信额度翻一倍。审批比以前快了,复查比以前少了,杠杆比以前高了。

世界变安全了吗?

没有。变的是人的胆子。报表上多了一行"风险敞口可控",这六个字替代了原来所有的犹豫、争论和反复确认。数字一出,放行就快了。

那套系统没做错什么。它在做它被设计来做的事:量化、分类、输出一个看上去精确的指标。但那个指标一旦被组织采信,它改变的东西远远超出风险评估本身。仓位变大了,杠杆变高了,复查变少了,授权变宽了,停机变难了。

公式会算错,这是常识。但这类工具最不容易被讨论的危险,不在算错。在于它算对了一段时间之后,会系统性地改变人的行为。风险没有消失,它从"拍脑袋的不确定"变成了"有数字撑腰的过度暴露"。


一、系统上线后,最先变的不是风险,是你的动作

把一件事从"我觉得大概行"变成"系统算出来 0.73",最大的变化不在精度上。在心理上和组织流程上:原来需要犹豫、争论、签字的决策,变成了"指标达标,放行"。

几乎所有风控或评分系统投入使用后,都会经历同一条行为漂移路径。

仓位放大。 没有精确指标的时候,决策者不确定自己判断有多可靠,通常会留比较大的安全边际。系统给了一个明确数字,那个不确定感被替代了。数字说可以承受更多,于是承受更多。

杠杆提高。 杠杆是把对未来的判断变成现在的承诺。没有量化结果的时候,人对自己的判断有本能怀疑。数字让怀疑减小了一个量级,承诺就跟着加大一个量级。

复查频率下降。 一套系统连续表现好的时候,没有人愿意花时间重新检查一个"正在工作"的东西。复查成本不变,但复查的心理动力在衰减。

授权范围扩大。 这条最隐蔽。评分和报表让决策看起来"可解释""可追溯"了,组织愿意把更大的风险预算交给更少的人、更自动的流程。原来需要三个人签字的事,现在一个人看看仪表盘就够了。

停机变难。 一旦仓位变大、杠杆变高、流程变自动,停下来的成本也在变大。没有这套系统的时候,停一停只是少赚一点。有了这套系统之后,停一停意味着推翻整套已经铺开的流程和已经建好的仓位。

五条叠在一起,指向一件令人不安的事:精确数字没有自动减少系统的风险暴露,它在改变风险暴露的形态。旧的风险是"看不清",人因此谨慎。新的风险是"太敢做",人因此自信。

量化工具有用。但有用和安全之间,隔着一个行为变量。这个变量的名字叫胆子。

插图 01
数字一出,动作就变了
插图 01|数字一出,动作就变了 数字进入流程后,最先变化的是动作,不是风险本身。 打开原图

二、Thorp 先花很久证明优势,多数人跳过了这一步

Ed Thorp 一辈子做的事,很多人只记住了一半:用数学和概率在赌场和市场上挣钱。他们跳过了一个前置条件:他花了极长时间,在把规模放大之前,先证明优势确实存在。

这听起来像废话。当然要先证明优势。

但在真实的量化工具使用中,顺序几乎总是反过来的:先有一套看起来不错的系统,然后很快进入"应该投多少"的讨论。"优势到底有多确定"这个问题,被跳过了。

Thorp 的方法论里最有价值的部分不是某个公式,是他对"什么时候可以开始放大"这个问题极其审慎。他用 Kelly 准则讨论最优规模,但自己在实际操作中从来不用满额 Kelly。他用半 Kelly,甚至更低。

不是因为他不会算。恰恰因为他比任何人都清楚公式背后的数学:胜率是估计的,赔率结构是假设的,独立性前提是简化的,执行过程有摩擦。只要输入有误差,最优比例就不是现实里的最优,它是一个在理想条件下的上界。

这个认知的含义非常具体:一个系统产出的数字,和这个数字可以被直接用来决定仓位,中间还隔着一整层判断。

假设一套风险系统说,某个机会的预期收益率是 12%,最大回撤 95% 概率不超过 8%。很多人看到这两个数字,直接开始计算"我可以承受多大仓位"。但更该问的问题是:那个 95% 的概率估计,用了多少数据、什么分布假设、多长的观察区间?剩下那 5% 会发生什么?是亏 8% 还是亏 40%?

Thorp 留下的遗产不是一个好公式,是一种使用数字的纪律:系统输出的数字是讨论的起点。从数字到仓位,中间至少还要经过对误差范围的折扣、对路径风险的考虑、对自身承受能力的诚实评估。

偏偏这种纪律,在工具越来越精细的年代越来越稀缺。回测越漂亮、数字越精确,人在"数字到仓位"这个环节的折扣就越小。折扣越小,暴露越大。

插图 02
从数字到仓位,中间要打折
插图 02|从数字到仓位,中间要打折 系统输出的数字和实际承担的仓位之间,至少隔着一层折扣。 打开原图

三、校准精确到小数点后四位,然后呢

Emanuel Derman 在金融工程领域做了二十多年,他说过一个判断:金融建模更像有用的隐喻,不像自然法则。

Derman 自己就是做金融建模的人,他不是在否定这类工具。他在提醒一个经常被忽略的区分:物理学里的规律可以在实验条件下反复验证,金融里的定价和风险框架面对的系统会对工具本身做出反应。

一个波动率定价工具被拿来定价和对冲的时候,需要做"校准":把参数调到和市场观察到的价格一致。这个校准过程往往精细到小数点后好几位。精细让人安心。精细不等于准确。

校准说的是"这套定价工具在今天的市场条件下可以匹配今天的价格"。它没说"它理解了产生这些价格的机制"。

"匹配"和"理解"的区别,直接影响你怎么信任一个数字。你知道它只是匹配了当前数据,你会保持警惕:条件一变,匹配就可能失效。你把校准理解成"已经捕捉了真实规律",你会把它用到更多情境里,包括那些跟校准条件完全不同的情境。

Derman 还拆开过另一个接口:纸面上的检验和执行中的检验是两回事。 一个对冲策略在定价框架里看起来几乎无风险,真正执行的时候会碰到流动性、滑点、交易对手和时间差。这些约束把纸面假设变成了操作风险。每一步执行都在检验一个假设,每被检验一次就有一次出错的机会。

这意味着一件有点违反直觉的事:工具越复杂、步骤越多、校准越精细,执行层面要承受的约束和摩擦也越多。系统看起来越精密,使用它的操作风险不一定在下降,有时反而在上升。步骤越多,出错链条越长。

评估一个风险数字能不能信任,不应该只看它有多精确,更应该看它在什么条件下才成立。条件越苛刻、越难维持,这套判断框架就越脆弱。 脆弱框架搭配大仓位,就是一个等着被触发的东西。

精确数字最像地图。地图越精细,不代表路不会塌。但人拿着一张精细的地图,确实比拿着一张粗糙的地图更敢走夜路。

插图 03
精确校准,不等于理解机制
插图 03|精确校准,不等于理解机制 精确匹配今天,不代表理解了明天会怎么变。 打开原图

四、回测曲线越平滑,你越该紧张

很多量化系统说服人的方式是回测。"过去二十年,这个策略的夏普比率 1.8,最大回撤 9%。"图表线条平滑上扬,数字干净好看。

一条漂亮的历史曲线,可能正在掩盖未来最大的风险。

Mandelbrot 一生做一件事:提醒人们极端事件不是公式之外的"异常值",它是很多真实系统的内在特征。金融数据的尾部比正态分布暗示的要厚得多。这不是统计学上的技术细节。它是一个关系到存亡的实操问题:厚尾意味着极端事件的发生概率远高于标准风险公式的预期。

用正态假设去做回测、做风控、做仓位计算的时候,系统会低估"超出预期"事件的可能性。6 个标准差事件在正态分布下几乎不该发生,但在真实金融市场,它发生的频率高得惊人。

回测还有另一个结构性弱点:过拟合。数据越多、参数越灵活,越容易在历史上找到漂亮线条。那条线可能只是在描述过去的噪声,不是未来的信号。

Jim Simons 的团队据公开材料显示,在这个问题上极其警惕。他们花大量精力区分信号和噪声,区分一个模式到底是规律还是偶然相关。而且他们清楚,即使是有效信号,在不同市场条件和不同容量规模下也会衰减。

Simons 的公开材料里,可转移的东西不是任何一条策略。他的策略私有、保密,且极度依赖特定数据基础设施和执行环境。可转移的是组织纪律:拟合历史不等于理解未来;量化系统需要不断检验而不是一次性部署;策略有容量边界,规模放大后信号可能消失。

但大多数人学到的不是这些。他们学到的是"Renaissance 赚了很多钱,说明量化是对的"。于是评分系统被当成一个输出正确答案的机器,回测曲线被当成未来的承诺。

一条回测曲线能告诉你的:这组参数在这段历史数据上表现不错。它不能告诉你的:这套参数是否理解了产生数据的机制,这个机制是否会变,以及它在更大规模或不同条件下是否还有效。

我观察到一个非常一致的现象:历史表现越好、回测图表越平滑、数字越精确,使用者在仓位和杠杆上的胆子就越大。平滑曲线制造的不是谨慎,是安全感。安全感的代价,到了尾部才会被结算。

Mandelbrot 的分析翻译成大白话:你带着对尾部的低估去决定仓位和杠杆,你的系统就变成了一个在多数时间看起来安全、在极少数时间足以致命的结构。 比公式算错更危险。算错了你可能很快知道;低估尾部,你可能在事件发生之前毫不知情。

插图 04
平滑曲线,可能藏着厚尾
插图 04|平滑曲线,可能藏着厚尾 越平滑的曲线,越可能让人忘掉尾部。 打开原图

五、数字越精确,越要问:错了谁买单

风控系统生产出一个精确数字:"VaR 3200 万""预期回撤不超过 5%""信用评分 87 分"。这个数字进入组织流程后会发生什么?

通常是这样:开发团队负责"准确性",使用方负责"执行",审批层负责"合规"。最终承担损失的,往往是另一群人:股东、存款人、基金持有人。那些人在尾部事件发生时,才发现自己是最终敞口承担者。

生产精确数字的人,和承担数字出错后果的人,经常不是同一批人。

Taleb 反复提过一个朴素的问题:你看到一个精确数字的时候,第一反应不该是"这个数字准不准",该是"如果这个数字错了,谁在承担后果"。承担后果的人没有参与判断数字是否可靠,那这个精确数字就不是一条信息。它是一个治理漏洞。

这类系统越普及的组织里,责任分离被放大得越厉害。报表和日志让决策"看起来"更可解释、更可追溯:报表有数字、系统有记录、流程有签字。但"可追溯"不等于"有人负责"。出了事,每个人都可以指着报表说"我是按规则来的"。

向工具追责,这件事本身就荒谬。工具不能承担后果。但当组织把越来越多决策委托给自动流程和精确指标的时候,工具就变成了一面盾牌,挡在决策者和后果之间。

跟胆子的关系是直接的:当你知道后果由自己承担,胆子会被自然约束。当后果已经通过组织流程和系统签字被分散到别处,胆子就失去了约束。 精确数字在这里起到的作用,是让"后果分散"变得合法且隐蔽。

具体地说:一个基金经理使用风险系统做管理,系统显示当前组合的最大损失在"可接受范围内"。他把杠杆从 1.5 倍提到 2.5 倍,系统显示新杠杆下风险仍然"合规"。但如果尾部估计偏了,实际承担超额损失的不是基金经理。他最多损失奖金和工作。最后承受损失的是基金的持有人。

这不是个别案例。这是风控工具被组织化使用后的通用结构:数字让决策者距离后果更远了。距离后果越远的人,胆子越大。

插图 05
数字错了,谁买单
插图 05|数字错了,谁买单 精确数字不是责任人。后果最后落到谁身上,才是关键问题。 打开原图

六、成功才是危机的起点

上面五个部分可以用一个框架串起来。

Hyman Minsky 描述过一个内生脆弱机制:当事情顺利的时候,参与者不会简单地"保持现状"。他们会主动把自己的融资结构从保守推向进取:从有余量到刚好够,从盈利覆盖负债到需要滚动融资甚至需要资产升值来覆盖利息。

精确数字在个人和组织层面触发的,是一个极其相似的过程。

当一套风控或评分系统持续表现好的时候,使用者不会简单地"继续信任它"。他们会一步步改变行为结构:从在输出上打折,到按输出全额执行;从留一笔系统覆盖不到的安全资金,到把安全资金也投入生产;从定期重新验证假设,到除非出事否则不验证;从辅助判断,到结论直接触发自动执行。

每一步变化都"合理",都可以用效率、成本优化来解释。每一步变化都在减少系统在极端事件下的余量。

这个过程最隐蔽的地方:系统看起来变"好"了。报表更漂亮,效率更高,成本更低,收益更稳。所有可观测的指标都在改善。唯一在恶化的,是一个通常不可观测的变量:系统在极端条件下的存活能力。

经常不是风控失效导致危机。是风控成功导致危机。成功,信心增加;信心增加,行为变激进;行为变激进,余量减少;余量减少,系统变脆弱。问题不是在链条终点突然出现的,它在起点就改变了链条的方向。

精确数字不是护栏,精确数字是放大器。 好判断和好系统配合,赚得更多。判断或系统有一个偏了,赔得也更多。赔得更多的那种情况,往往发生在所有人最不预期的时候。那个时候,恰好是信心最高、仓位最大、余量最小的时候。

这不是反量化、反风控、反工具的结论。工具本身不制造过度冒险。工具被放进人的决策和组织流程之后,人和组织的行为变了,冒险程度才变了。

插图 06
成功会把系统推向更脆
插图 06|成功会把系统推向更脆 成功本身会改变行为。数字越被信任,系统越容易被放大。 打开原图

精确数字六项体检

一套风控、评分或量化系统被投入使用之前,或者正在使用的时候,至少过一遍这六项。不需要每项都有完美答案,但每项都要被认真问过。

一、优势证据。 它证明的是可复核的优势,还是只在历史数据上找到了一条好看的曲线?优势来源可解释吗?换一个时间段或市场,优势还在吗?不能经受数据替换检验的"优势",大概率是过拟合。

二、误差在场。 误差范围有没有被写进决策流程本身,而不是放在报告附录?决策者看到的是一个点估计值,还是同时看到了这个估计值可能偏多远?误差不出现在决策界面上,它就等于不存在。

三、行为审计。 系统上线以后,仓位变大了没有?杠杆提高了没有?单人或自动流程的授权额度扩大了没有?复查频率降低了没有?如果这些变量发生了系统性变化,那不叫效率提升,叫风险暴露在不知不觉中放大。问自己一个问题:如果现在把系统下线,我敢不敢保持当前的仓位和杠杆?不敢,说明当前风险水平已经建立在系统正确之上了。

四、尾部承担者。 精确数字如果是错的,谁在承担后果?是开发系统的人、使用系统的人、审批系统的人,还是完全没参与讨论的出资人或客户?承担后果的人对假设和局限没有知情权和决策权,这套流程在治理层面就有缺口。

五、停机条件。 什么情况下系统应该被暂停?这个条件是事先定好的,还是等出了事再开会?使用方有没有提前准备好失效时的应对方案?没有停机条件的系统,在失效时的反应只能是混乱。混乱状态下的决策,通常比没有系统更糟。

六、复查衰减。 表现越好,复查频率有没有悄悄下降?这条最隐蔽,因为"表现好所以不需要频繁复查"听起来完全合理。但表现好恰恰可能意味着系统还没有经历过它不适用的环境。在一套系统从未被检验过失效边界的时候减少复查,像在一条没下过大雨的路上拆掉排水沟。看起来节省了成本,代价要等暴雨来了才知道。


这六条对应的都不是技术缺陷本身,是精确数字和人的行为、组织流程之间的交互问题。

工具会继续变好,数据会继续增多,算法会继续变精。进步不会自动带来安全。进步自动带来的是信心。信心如果不被约束,会把进步变成更大的风险暴露。

回到开头那个场景:风控系统上线三个月,没出事,额度翻倍。

最危险的地方不是它会错。是它让错误可以带着更大的仓位发生。

知道这一点的人不会拒绝风控、评分或量化工具。但他们会在每次看到一个漂亮数字之后,检查一件事:我的仓位、杠杆、复查频率、停机预案,是跟着能力一起变的,还是跟着胆子一起变的?


免责声明:本文为理论性讨论,不涉及、不构成任何投资建议。文中提及的金融概念和学术人物仅用于说明风控数字、量化系统和组织行为,不应被理解为对任何资产、策略或交易行为的推荐。读者应基于自身情况独立判断,必要时咨询专业顾问。