梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」

花花2026-01-03债务科普3

新年第一天,DeepSeek在arXiv放出一篇相当“硬核”的论文:mHC: Manifold-Constrained Hyper-Connections,时间戳是2025 年 12 月 31 日(v1)。

作者列表里,除了三位一作(Zhenda Xie、Yixuan Wei、Huanqi Cao),还出现了神龙见首不见尾的传奇人物 Wenfeng Liang(梁文锋)。

这篇论文要解决的,其实是一个“基础设施级”的老问题:当网络深度与通道层层加码,系统如何不走向崩塌?

梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」_梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」_

01 从残差的“定海神针”说起:为什么 x + F(x) 让深度网络能 work

熟悉神经网络里程碑历史的都知道,残差(Residual / Skip Connection)的发明,是深度神经网络能 work 的关键,从而为深度学习革命打稳了基础。何凯明/张祥雨也因此成名;那篇残差论文的引用数,据说在 AI 历史上是绝对的首屈一指。

这是一项发生在十多年前、深度学习革命刚刚开启时,他们在微软做出的里程碑工作。后来,它成了深度神经网络的标准 practice:用x+f(x) 代替f(x)。这条看似朴素的改动,恰恰是为了保证多达几百、上千层的网络,在不断加深的(函数)转换中不至于“差之毫厘,失之千里”,从结构上兜住训练的稳定性(那条x 的直通路径,本质上就是恒等映射的安全绳)。

我们知道,大模型本质上就是个图灵机:在足够的容量与数据驱动下,它可以规律性地把任何信号输入x 变成任何其他信号输出y,也就是实现某个f(x)。这就是所谓的万能函数近似——老母鸡变鸭的魔术:文生图、机器翻译之类,看上去神奇,背后都是“把x 变成y”的系统性变换。正是在这个意义上,残差网络(ResNet)里x 这条直通连接线,成了大模型的定海神针。

因此,ResNet 的核心不是某个更复杂的卷积,而是那条看似朴素的“直通线”——让每一层学习 F(x),但输出是 y = x + F(x)。原论文把这种 直通车道(shortcut) 设计解释为“identity mapping”,它让信息可以跨层稳定传递。

你可以把它当作在深度网络这个“层层加工的工厂”里,额外修了一条不加工作业、直达下一站的传送带。于是深度从几十层堆到几百层、上千层时,也不至于在复合变换里越走越偏,最终训练崩盘。

梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」_梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」_

ResNet 把每一层从“直接学一个函数”改成“学一个增量”。这就好比雕塑大师把人物雕塑工作,转变为“去除多余的部分”。一块大理石,多余的“残差”去除殆尽,人物自然就成型了。

这件事的关键在于它把恒等映射(identity mapping)塞进了网络:哪怕F 学得一塌糊涂,x这条直通路径也能把信号和梯度比较完整地送到更深处,从而让几百上千层不至于“越算越跑偏”。mHC 论文在引言里也把这点讲得很直白:残差的稳定性,来自恒等映射跨层累积时的结构性保障。

作为研究背景,一句话总结残差的精神内核:

让网络“可以很深”,靠的不是每层转换多聪明,而是“永远留一条‘不作妖’的直达通路”。

02 单车道不够了:HC 把残差流“扩建成多车道”

传统残差是一条残差流(hidden state 的那条“主干通道”)。但当模型越来越大,研究者会自然产生一个念头:

既然残差流像高速公路的主干,那我能不能把它从 1 条车道扩成 n 条车道,让信息在不同车道之间更自由地交换、混合,表达力更强?

这就是 Hyper-Connections(HC)这类工作的出发点:把残差流的宽度从 C 扩到 n×C,并引入一个可学习的混合矩阵,把“各条车道”的信息在每层重新路由。在 HC 原论文里,核心机制就是这种“复制 n 份 residual path、再在它们之间做连接”的宏观结构。

梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」__梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」

路修宽了,车更多了,理论上吞吐更大、信息更丰富。

但问题是:你把高速路扩建成多车道,最怕的不是车多,而是没有交规。

03 HC 为什么会炸:无约束矩阵跨层复合变成“放大器”

残差之所以稳,关键是 identity mapping 这条线天然具备一种“守恒”味道:

你至少能保证有一部分信号,不被层内变换“瞎折腾”(带偏)。但 HC 的混合矩阵完全自由学习、没有任何约束,跨多层之后,实际上是在做一串矩阵连乘。

mHC 论文直说了:HC 的这种无约束设计在大规模训练时会破坏 identity mapping 作为“conservation mechanism(守恒机制)”的角色,导致平均信号强度无法保持,从而出现无界放大或衰减。

更直观地讲这种“放大器效应”就是:

如果某几层学到的“残差”在某些方向上“略大于 1”,

经过几十层、上百层复合后,增长会呈指数积累,

最终就是大家熟悉的两种灾难:信号爆炸 / 梯度爆炸,或者相反:梯度消失。都是模型训练的灾难。

不是 HC 多车道思路不对,而是它把原残差网络自带的这根“定海神针”,拆成了“自由的放大链路”。

04 DeepSeek 的一招:把混合矩阵关进“双随机”的笼子里

mHC 的核心思想可以一句话概括:

你可以修立交桥、修多车道;但负责“指挥交通”的矩阵,必须服从一套严格的守恒规则。他们选择的规则是:把残差约束到所谓 双随机(doubly stochastic / bistochastic)矩阵集合上——元素非负、每一行和每一列都等于 1(归一化)。

这样做带来三层非常“工程友好”的稳定性保证:

凸组合(convex combination)解释

双随机矩阵相乘仍是双随机矩阵(非负性与行列和约束都能传递),因此“多层连乘”不会越乘越野,守恒性可以贯穿整个深度。翻译成咱老百姓的话就是:

每一层的混合矩阵,本质上像是在“若干种换道方案(置换)”之间做概率意义上的加权选择。这就特别像一个“带守恒约束的交通路由系统”:怎么换道都行,但总车流不能凭空变多或变少。另外,mHC 还对前后残差引入非负约束(论文用 sigmoid 形式实现),避免正负系数复合导致的数值抵消行为。

梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」_梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」_

05 把“野矩阵”投影成“双随机矩阵”

“利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上”,这里的核心是这一步:

然后反复做两件事:

行列交替迭代,最终收敛到双随机结构。你可以把所谓 Sinkhorn-Knopp 过程想象成一个“交警训练营”:

不管你原来学出来的“交警”矩阵多么放飞自我,进训练营一套队列动作做完,它就必须满足“行列守恒”的硬纪律,才能上岗指挥交通。关于“流形”(manifold)这个术语,可以这样理解:

严格说双随机矩阵集合整体是个凸多胞形(边界有棱角),但在其内部(所有元素严格正)可以视为一个受约束的光滑空间;论文在工程语境里用“manifold”来表达“我们不让参数在整个欧氏空间乱跑,而是限制在一个有几何结构的可行集合里”。

06 它不仅是数学,更是工程:6.7% 的代价换稳定与收益

把残差流扩成 n 倍,直觉上显存与通信都会爆炸。mHC 论文非常明确地把“系统开销”当作同等重要目标:它不仅提出数学约束,也在配套工程上做了 kernel fusion、选择性重计算、以及在 DualPipe 调度里更激进的通信-计算重叠。

最后他们给出的系统级结论是:当n = 4时,mHC只带来约 6.7% 的额外训练时间开销。

这点很关键:

如果只讲“理论上更稳”,我们会问“那是不是贵得用不起?”

而这篇论文显然在回答:“我们把它做成了大训练里可落地的结构升级。”

07 一句话总结:mHC 的创新意义在哪?

HC 想把残差从单车道升级成立交桥;mHC 做的,是给立交桥加上守恒型交通规则——用双随机约束恢复 identity mapping 的稳定性,同时把工程开销压到可接受范围。

这也解释了下列对应关系:

残差之所以稳,不是因为“加法神奇”,而是因为它隐含了某种守恒结构;

当我们试图把残差升级成更复杂的拓扑时,真正需要被继承的,是这份守恒,而不是加号本身。

相关文章

航运巨头赫伯罗特:从中国到美国的集装箱预订量激增50%

航运巨头赫伯罗特:从中国到美国的集装箱预订量激增50%

华尔街见闻 赫伯罗特首席执行官Rolf Habben Jansen称,“预计运力将相当迅速地恢复。在未来几周内,将再次部署更大的船只,其他公司也可能在季度进行中增加运力。” 在中美互降关税之后,航运巨...

芯片重大资产重组 ,突然终止,此前8个“20cm”涨停!南向资金大幅加仓,环比增长超74%

芯片重大资产重组 ,突然终止,此前8个“20cm”涨停!南向资金大幅加仓,环比增长超74%

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 本周南向资金净流入中芯国际、美团-W,净卖出小米集团-W、腾讯控股、阿里巴巴-W。 光智科技终止重大资产重组 6月27日晚间,...

特朗普180度转弯后的市场:资产大涨只持续一天,标普一度接近熔断

特朗普180度转弯后的市场:资产大涨只持续一天,标普一度接近熔断

尽管特朗普周三大转弯,但市场已如惊弓之鸟,关税举措的不确定性以及供应链正在被扰乱,这些美国经济问题仍未被解决,投资者情绪依然不安。周四美股下跌,标普500指数跌幅接近熔断,30年期美债收益率大涨,油价...

中信证券:水牛行情5问

中信证券:水牛行情5问

市场近期已经演绎出比较典型的水牛特征,我们集中汇总了投资者提问较多的5个问题,并给出我们的答案。1)近期的增量资金到底来自于哪?我们最初观察到的是比较广泛和普遍的机构资金净流入,随着市场赚钱效应开始积...

车市首季迎来两位数增长

车市首季迎来两位数增长

3月份我国汽车产量300.6万辆,环同比增长42.9%、11.9%,销售291.5万辆,环同比增长37%、8.2%;一季度,汽车生产756.1万辆,同比增长14.5%,销售747万辆,增长11.2%。...

年收11.75亿,国内最大的中医院同仁堂医养三闯港交所

年收11.75亿,国内最大的中医院同仁堂医养三闯港交所

在同仁堂、同仁堂科技、同仁堂国药上市后,同仁堂医养本次若成功上市,将成为同仁堂集团旗下第四家上市公司。 来源:新财富杂志综合自证券时报、21世纪经济报道、投资家等 近日,据港交所披露,北京同仁堂医养投...