内地AI初创DeepSeek(深度求索)在元旦日发布一篇新论文,提出一种名为mHC(流形约束超连接)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显着的性能增益 。
DeepSeek提出mHC是通过将传统Transformer单一残差流扩展为多流并行架构,利用Sinkhorn-Knopp演算法将连接矩阵约束在双拟随机矩阵流形上,成功解决超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和讯号爆炸问题。
相关内容潍柴动力(02338.HK)认购14.4亿人币招行结构性存款产品
该论文第一作者包括Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao三位。而DeepSeek创始人梁文锋也在作者名单中。(ta/w)
AASTOCKS新闻