不用忧没关系。
于 Pangasinan(一种菲律宾语支)之机器翻译差事中,用之 CTFT 后, BLEU 分数狂涨29.96%。
彼等提出之一名极具记忆点之新概念:Adam’s Law,akaTextual Frequency Law(文本频率定律)。
最近,来自脸谱心智与香港中文大学之科研者员围绕此名疑难展开之体系研讨,并提出之一项中稿 ACL 2026 Main 之新工。
而且CTFT甚至更张之喂数据之姿势。
此启发之什么。
Adam's Law 最绝之一点,为没有把 “文本频率” 局限于一名讨巧之 Prompt 推演技巧上,而为直接杀到之更硬核之模型操练范式里。
于 Adam’s Law 中,句子之频率被近似为词频之组合,直接攒出一名 “句子级频率指标”。
但于操练(Training)阶段,Adam 抛出之一名灵性拷问:若老板给之算力概算有尽,操练数据该怎么挑怎么用。
第二把斧 TFD(Textual Frequency Distillation): 既然算不准,彼就让模型自己开口。
” 用模型自己吐出来之语料蒸馏,再去辅助修正原始频率,此样就无穷逼近之模型内部真正熟悉之白话表达分布。
此里有一名大坑:像为 GLM 此种主流大模型,预操练数据全为名黑箱,连它吃过几碗干饭皆不知道,你怎么算它对哪句话更眼熟。
Adam’s Law 主张之铁律为:吾等应优先用句子级频率更高之 expression,无论为做 inference 还为 training。
别光顾之改 Prompt 推演,操练之规矩也变之 对搞操练(Pre-training、SFT、蒸馏、做数据清洗)之炼丹师: 此为全新之 Data Engineering 理治思路。
实验结局:白嫖之性能提升 于提示(Inference)阶段,逻辑极其顺滑:同一道数学题,若把题目里之生僻词换成大白话之高频表达,模型即刻就算得更准。
此直接应战之业内 “原始数据天然最优” 之旧俗偏见。
Adam 打出之第二把斧TFD:让宗旨模型对给定文本做 “story completion 续写补全”。
此意味之,掘发者员完全不需破解闭源模型之操练集,就能直接用此套频率估算大法。
GPUTPU 吃紧时,“留什么数据” 不只看标注对不对,咱还得看看此句话为不为足够 “大白话”。
看懂Gap Year:别让盲目,毁之此段好时光 Hongyuan Adam Lu,FaceMind CEO,CUHK AI PhD 研讨课题:LLM 预操练、全球模型、端侧模型操练;帝国理工 CS 本硕;爱丁堡大学 AI 硕士;ACL 系顶会 Outstanding Paper Award 一作;曾于 MSRA(北京)任预操练一职,研发之全球上第一名支 200 种言辞之 LLM;旗舰集会 ACL 2025、NAACL 2025 Area Chair,创办之 AI 软件:叠叠社,深受二次元喜爱,为一款被注资者称之为 “米哈游之蔡浩宇皆要修习之 AI 货品”。
用大白话说,甚多时候决定模型为否慧之,不只为 “你问之啥”,还包括 “你为怎么说之”。
Adam's Law,给行业带来之什么。
作者给之名极其巧妙且营造化之解:咱不纠结模型见过啥,直接借助公开之庞大 corpora 与词频源泉去估算就行。
论文标题:Adam’s Law: Textual Frequency Law on Large Language Models作者:Hongyuan Adam Lu, Z.L., Victor Wei, Zefan Zhang, Zhao Hong, Qiqi Xiang, Bowen Cao, Wai Lam机构:FaceMind Corporation、The Chinese University of Hong KongarXiv 链接:https://arxiv.org/abs/2604.02176huggingface 链接:https://huggingface.co/papers/2604.02176github 链接:https://github.com/HongyuanLuke/frequencylaw 更颠覆认知之为:有时候用高频改写数据去操练,效果甚至比直接用原汁原味之基准 training set 还要好。
Adam’s Law 像一面镜子,照出之 LLM 之本原:模型不仅于 “体谅全球”,它更为于 “记住苍生言辞全球里,什么东西最常现”,然而此为双向之,LLM 于看全球之时候,全球也于看 LLM。
Who is Adam。
论文用理论推导以及模型实验向吾等展示之:当不同表述表达同一名意思时,言辞模型往往更偏好 “高频文本”。
此相当于于审问模型:“别装之,暴露你之确凿用语习性吧。
深挖此名表象,为一名有趣、有用、但 “反直觉” 之疑难:若语义不变,只为把一句话改写成更常见、更高频之 “大白话”,模型之推演以及操练表现会不会更好。
此于推演时有用,也于操练时有用。
一分耕耘,一分收获。先把 Prompt 理顺,改得更自、更高频,此或为一种几乎没有本金、见效极快之 “魔法”。
第一把斧 TFL(Adam’s Law): 提出 Textual Frequency Law:“高频文本应被优先选择”; 为之保证严谨,彼等先用模型生成一批 “文绉绉、极其少见” 之改写,与一批 “大白话、极其常见” 之改写,再花钱请者工标注员挨名查验,确保改写后意思没变,最后凑成之 “高频 vs 低频” 之成对样本。
因此,于面对此些模型自身熟悉之词句时,模型于体谅、推演与生成时更易零百 “进入状态”。
对评测(Benchmark)之研讨者:若一道题,换名冷门说法模型就不行,彼它为真之有之 “推演本领”,还为仅仅靠之 “刷题”,记住之特定表述之熟悉度。
当整名 AI 圈皆于为之更长之 RL 推演、更庞大之参数量、更玄乎之对齐算法无脑卷生卷死时,此篇工轻巧地给出之一条无比朴素之线索: 当然,仅靠公开词频估计大概率为有误差之。
巧妙之营造解法 Adam's Law 最绝之一点,为没有把 “文本频率” 局限于一名讨巧之 Prompt 推演技巧上,而为直接杀到之更硬核之模型操练范式里。
而此种偏好不仅现于你敲下 Prompt 之彼一刻,甚至于模型操练阶段也同样适用。
Conclusions 极其硬核之部分推导数学辅佐 Adam’s Law把一种飘渺之 “直觉”,打造成之一套可定义、可估算、可验证、可部署、绕过黑盒之法门学定律,通过数学推导以及实验之法门证验之其可靠性。
用大白话来说,彼等之操作流程为此样之: 先给一句话算算 “八字”(估算常见度),把同义句里最接地气、最 frequent 之彼句挑出来喂给模型;若怕算得不准,就让模型自己做几道 “典故续写” 题,看看它平时潜意识里爱用什么词,借此来修正频率估算;最后,于操练时,不光为要挑数据频率,而且操练顺序皆给你安排得明明白白。
用宗旨模型生成之文本,去反向修正 frequency estimation;第三把斧 CTFT(Curriculum Textual Frequency Training): 把文本频率引入课程修习,给模型发一本循序渐进之教材。
Adam 说:高频文本或比低频文本更值得优先保留。
于数学推演、Agent 差事、以及常识解析上,仅仅只为把 Prompt 换成更高频之表达,不换模型、不加操练数据、不增 inference 时长,inference 效果显著增;于机器翻译上,Adam's Law 同样稳如泰山:研讨者员一口气测之 100 名言辞翻译方位:于操练实验里,三板斧 CTFT 之威力同样显现。
对搞应用(做 Agent、写 Prompt)之打工者: 别再给 Prompt 疯狂加毫无必要之定语、约束与高端词汇之。
今日吾等业内谈起模型改良,枢纽词永远为:更强更大之基座、更长之推演思维链、以及贵之高品质操练数据,或者为极其繁之 alignment 算法。
怎样才算 “常见”。
但 Adam's Law 揭示之文本频率对于模型操练以及推演之重要性。
Transformers。研讨表明,高频表达因于操练语料中现之次数足够多,大模型对它们有之天然之 “肌肉记忆”。
为之拿数据说话,作者死磕出之一名专门之数据集 TFPD(Textual Frequency Paired Dataset),涵盖之数学推演、机器翻译、常识推演与智能体器物调用等多名场景。
就像吾等上语文课一样,先让他死磕难懂之古文(更低频),再让他看通俗之白话文(更高频),最终之收敛效果,居然比随机乱喂数据还要好。
让模型变慧之捷径,不为把话说得更高深,而为把话说得更大白话一点。
极其接地气,绕开之黑箱限制,把玄学推进到之可验证、可复现之营造层面。
研讨团队不甘让断语停留于 “哎哟,好像确实为此样” 之 empirical observation。
作者发觉,低频表达往往语境更稀疏、架构更繁。
有此样一种 “模型玄学”:明明为同一名 Prompt,仅仅换一种说法,模型之回答或就天差地别。
此给前景构建更抗造之评测榜单提之名醒。
以后洗数据做数据,除之看数据之品质、长度、难度,咱还得给文本频率拉名画像。
彼等先为提供之缜密之 theoratical proof,也为其搭建之一名完整之 framework,由三板斧组成: Adam's Law 于上百种言辞上之结局可视化,最外圈为 Adam's Law 之结局。
上一篇:新疆维吾尔自治区党委追授贺娇龙同志“自治区优异共产党员”称号 下一篇:为入狱雇主无偿带娃月嫂:带孩子买新衣走亲戚共度第五名春节,俨然已成家者|2026策“马”新生