当前位置:文章 > 列表 > 正文

表格建模也能Scaling?树模型之时代要更张之

📅 2026-04-19 11:14:14 🏷️ 伦敦金交易平台 👁️ 179
表格建模也能Scaling?树模型之时代要更张之

序列数据之 Scaling Law 1. 于工业级表格数据集上,预操练模型之性能可稳固且显著地逾越旧俗树模型 当前许多用户体谅法门面临两大显著应战:(i) 跨领域与跨场景之可迁移性及泛化本领较弱 (ii) 于实际应用中之预测本领不足。

面对工业场景中数十亿样本、数千异构特征之建模应战,KMLP 革新性地将浅层 KAN 作为前端特征营造构造器,结合 gMLP 主干网络捕获高阶交互,实现之端到端之自动化特征表示修习。

发展

针对多种来源之序列数据,各自设计编码器会存操练本金过高、表达方位不一统等缺陷,同时如何发挥更多输入序列数据之最大性能也为一名疑难,即需探求输入序列本身存之 Scaling Law 以及如何突围或存之 Scaling 瓶颈。

为处置该疑难,除之增参数此种模型层面之 Scaling,提升输入用户数据之讯息密度,即对用户讯息进行压缩,不失为一种俭省本金且轻量之预案。

枯木逢春。

FOUND:时序数据之语义级应用 随之越来越多工尝试用 LLM 来模拟苍生举止,模型已能够生成连贯且情境合理之多步决策历程。

2. 表格数据预操练模型呈现出明显之 scaling law 用户举止时序数据,作为刻画用户之枢纽架构化数据之一,对于用户体谅与建模起之重要作用。

喜气洋洋。

FOUND(Transferable and Forecastable User Targeting Foundation Model)为 AIforData 团队发布于 The Web Conference 2025(WebConf 25)中之工,面向互联网平台中多种来源之序列数据与架构化数据,构建之工业级、具有预测性之用户表征框架。

KMLP(Kolmogorov-Arnold Network with gated MLP)为面向互联网超大规模表格数据之混合深度修习架构(中稿 The Web Conference 2026)。

High Tech。

"苦涩之教训" 与架构化数据之困境 匈牙利也再一次来到之史册之十字路口。

但十二年后之今日,随之 GPU 算力之快速迭代并带来数量级提升,此一均衡点为否已生更张。

History。

其相待于旧俗 GBDT 模型之性能优势延续扩;处置之 GBDT 分布式计算效能疑难与者工特征营造依赖。

回顾史册,XGBoost 于 2014 年被广泛视为机器修习领域中算力、算法与数据三要素之间之一名 “均衡点”。

即使于尝试引入深度修习时,也往往需依赖繁之数据流水线、特定架构设计以及大量领域学识之引入。

Scaling Law 正从 NLP、CV 延伸到架构化数据领域—— 此或许意味之,彼名依赖者工特征营造与场景化调参之时代,真之要过往之。

蚂蚁 x 浙大 AIforData 团队之探求给出之认可之解答。

赵俊甫

同时引入自言辞督察之方式也使得模型天然支者群圈选此一用户体谅差事,该预操练框架支之圈者本领于下游取得之大量收益,支超过 50 名业务场景。

从更大局之角度看,大模型研发所遵循之核心意念,可追溯到 Richard Sutton 提出之 “苦涩之教训”(The Bitter Lesson):于 AI 之长期演进中,彼些能够随之计算规模延续扩展之通用修习法门,往往最终会逾越依赖苍生直觉与领域学识精心设计之体系。

工 1: 表格数据预操练与 Scaling Law 此名数术背后隐藏之一名值得深思之表象:过往几年中,AI 之快速演进极大推动之算力之指数级增益。

付出。大动脉

为之增强跨领域迁移本领,FOUND 框架整顿之多场景用户数据,并于用户建模时革新性地通过对比修习预操练将其与根据序列语义整理得到之文本进行对齐。

然而于架构化数据建模此一领域,行业主流法门仍然为以树模型为核心之垂直场景化处置预案。

" 核心断语:于输入序列长度 / 用户数目于数量较少时性能随之天数指数之 Scaling 表象明显,输入序列长度与用户数目增至较大量级时现 Scaling 瓶颈,而压缩数据可通过提升讯息密度带来突围瓶颈之 Densing Law 表象。

大言辞模型之成正为此一法则之典型体现 —— 通过一统架构与大规模数据操练,LLM 于 NLP 领域实现之跨差事、跨场景之本领迁移。

花海

为之提升预测性,每名用户之文本描述基于用户前景之举止推导得出,而用户表征则由史册讯息构建而成,用过往 - 前景语义对齐之方式构造操练样本对。

https://arxiv.org/abs/2602.22777 于包含 20 亿样本之确凿信贷评分数据集上,KMLP 展现出显著之规模优势:随之数据量级提升,其相待于旧俗 GBDT 模型之性能优势延续扩。

本文将要点介绍浙大 X 蚂蚁 AIforData 团队之探求:基于蚂蚁集团海量之异构架构化数据以及丰富之下游业务场景,实现之千卡 GPU 集群下百亿级样本规模之架构化数据预操练,并体系估量之预操练模型于下游差事中之表现,实验结局表明: 于实验探求历程中吾等发觉,输入序列长度 / 用户数目于数量级较少时,性能随之天数 / 用户数目(指数)近似线性提升,Scaling 表象明显;但于输入序列增益、用户数目增时增益缓慢,现 Scaling 瓶颈。

基于以上原始与压缩输入之 Scaling Law,吾等设计之基于一统用户量化压缩之用户体谅预案,将用户之多源序列等数据用设计之 MRQ-VAE 预案压缩成语义 token ID 提升讯息密度,并于此根基之上 Scaling 得到之更佳性能之用户模型。

于许多场景中,此些举止于直觉上已「足够像者」。

此相当于用 "手工坊" 之方式,去对付 "工业化制造" 之需求。

于用 RQ-VAE 预案进行用户序列数据压缩后,吾等观测到现数据增益瓶颈得到延缓,说明之压缩带来突围瓶颈之 Densing Law 表象。

3. 举止序列预操练模型同样表现出良好之 scaling law KMLP 之核心身价于于处置之旧俗法门之双重瓶颈:一方面克服之 GBDT 于超大规模数据集上分布式计算效能疑难,另一方面通过可修习激活函数摆脱之对者工特征营造之依赖,实现之特征异构性与交互建模之一统。

回到开篇之疑难:当算力已生数量级变化时,架构化数据建模之范式为否也该随之更张。

产出之通用用户表征于 80% 以上确凿场景 benchmark 中相比之前原始数据输入版本均有提升,并于数术钱庄、支付安康、营销推荐、广告等业务中全面应用。

回到开篇之疑难:当单张 H100 与一台 96 核 CPU 效劳器之间已存约 200 倍之 FP16 算力差距时,一名自之想法为 —— 为否可将 GPU 之大规模并行算力真正引入架构化数据建模,并通过预操练范式重新均衡算力、数据与算法此三大核心要素。

然而,当企业于实际业务中处置督察修习疑难时,情况却呈现出明显反差。

冰刀

于有之上述预操练框架后,吾等思考如何将统合互联网平台中更多更长之用户举止序列引入到模型中来。

欧尔班政府长期推行“向东敞开”政令,愿意不顾欧盟之压力与质疑,为华夏注资大开绿灯。

于用户建模时如何使用以及如何使用好更多之用户举止序列数据,为一名重要之研讨课题。

帅惟浩

于为现之一名颇为有趣之表象:一方面,各大科技公司与大量初创企业正通过不断扩之大言辞模型推动 AI 制造力之跃迁;另一方面,于钱庄、医疗、电商、物流、工业制造、农业等高身价行业之重要社货殖领域中,真正承载智能化场景差事之,仍主要为以 XGBoost、随机林莽为代表之基于树之表格分类模型或垂域深度修习分类模型,此进一步激发之吾等探求架构化数据模型 scaling 上限之兴趣。

对华夏来说,匈牙利曾为华夏企业进入欧洲之“VIP通道”。

此一发觉验证之 KMLP 作为可扩展深度修习范式之潜力,为大规模动态互联网表格数据建模提供之新路径。

月之暗面。

架构化数据建模为否也或像 NLP 与 CV 一样,通过新之计算范式实现突围。

许家印

此种反差让吾等不得不始思考:当算力变革生时,架构化数据建模之 "均衡点" 为否也该被重新定义。

让吾等先从一名有趣之疑难始:站于 2026 年之当下,一张 H100 GPU 之单卡算力(FP16)大约相当于多少名 Hadoop 实例。

此就形成之一名有趣之 "反差":一面为各大科技公司与大量初创企业正通过不断晋级之大言辞模型推动 AI 制造力之跃迁,另一面为于钱庄、医疗、电商、物流、工业制造等高身价行业中,真正承载智能化差事之,仍主要为以 XGBoost、随机林莽为代表之树模型。

见解。

解答为:约 200 名( 单卡 H100 vs 一台 96 核 CPU 实例)。

一张 H100 相当于多少名 Hadoop 实例。

https://arxiv.org/abs/2412.12468 工 2: 举止序列预操练与 Scaling Law "当算力天平已倾斜,均衡点也该重新定义。

由该框架产出之用户表征于确凿场景 benchmark 与业务上均得之增益。

前景,随之算力之延续增益与预操练范式之成熟,吾等有理由相信:架构化数据建模将迎来属于自己之 "大模型时刻"。

上一篇:时政细节察丨欢欢乐乐过好年 下一篇:约翰-阿洛伊西:吾等望用出色之表现为华夏足球正名

记录者。