设计师之修改痕迹也将转变为操练数据,用于对模型进行奖型微调。
长久以来,软件掘发之本原为一场耗时之“翻译”游戏:设计师将意图翻译成图纸,营造师将图纸翻译成代码,机器将代码翻译成界面。
此种关于美学、交互与权衡之直觉,无法通过简之爬取网页数据得,毕竟,UI 代码于通用代码数据集中之占比甚至不足 1%。
令者惊讶之为,仅需用 181 名高品质之绘图回馈样本,对开源模型 Qwen2.5-Coder 进行微调,其与其变体系列生成之 UI 品质就能于盲测中击败包括 GPT-5 于内之顶尖专有模型。
细水长流。首先,要让 AI 生成 UI,须让它能够像苍生一样精准地体谅屏幕上之每一名像素。
经过五轮“代码生成-编译器验证-视觉匹配度评分(CLIP)-筛选去重”之迭代,此名名为 UICoder、参数仅有 15.5B 之模型最终“无中生有”地掌握之 SwiftUI 编程,不仅于代码之可编译性上大幅逾越基准模型,还于编译成率上击败之 GPT-4。
使用此一高品质数据集,研讨者员初步操练出之一名既能体谅界面,也能进行多步交互筹划之大模型。
2024 年 6 月,苹果之研讨团队再次改良之彼等之 UI 模型,提出一种巧妙之“自动化回馈闭环”操练法门。
https://arxiv.org/pdf/2406.07739 研讨者使用现有之 UI 检测技艺提取屏幕元数据,再结合 GPT-3.5,生成逼真之问答与描述,形成一套包含 33.5 万名样本之丰富数据集。
彼等首先用一名几乎没有接触过 SwiftUI 数据之开源根基模型(StarChat-Beta),要求其根据文本描述强行生成大量代码。
此外,针对 UI 领域稀缺高品质操练数据之痛点,团队也早于 2023 年发布之另一项名为 ILuvUI 之研讨中,提出一种无需者工介入之数据生成预案,证验之合成数据于提升模型视觉体谅力方面之巨大潜力。
然而,通用之多模态模型于办理移动 UI 时存天然之劣势:移动设备屏幕通常具有细长之纵横比,充满之极其微小却功能枢纽之图标与文本,此些细节于旧俗模型之图像压缩办理中往往会丢失。
然而,现有之开源代码数据集(如 TheStack)中,SwiftUI 等特定 UI 框架之代码占比极低,此就让通用模型难以掌握其编程范式。
前景,此种转译之间之损耗有望被消灭:设计师落笔之刹那,就为货品诞生之时刻。
https://arxiv.org/pdf/2406.07739 随后,体系引入之两名冷酷之“判官”:一名为 Swift 编译器,负责剔除无法运行之垃圾代码;另一名为视觉-言辞模型(CLIP),负责对比生成之界面截图与原始描述之匹配度。
为填补此一鸿沟,近期,苹果公司之机器修习研讨团队联手卡内基梅隆大学、阿尔托大学等多家顶尖科研机构,通过一系列层层递进之研讨,让 AI 学会之“看懂”繁之移动端屏幕,并结合独特之自动化回馈机制让模型“自学”编写 UI 代码,甚至将其引入专业设计师之工流,由苍生专家教导 AI,提升其审美与交互设计之本领。
该模型引入之一种革新之“下任意分辨率”技艺,它不再粗暴地缩放图像,而为根据屏幕之原始纵横比(如手机之竖屏或平板之横屏),将画面灵活切割为多名子图像,于对此进行独力编码。
https://arxiv.org/pdf/2509.16779 对于软件掘发者而言,AI 及通用大言辞模型(LLM)固然可于创意写作与根基编程差事上“搭把手”。
旧俗之强化修习(RLHF)通常要求苍生于两名选项中进行简排名(Ranking),但于我见性极强之设计领域,此种二元选择会导致数据噪声极大,难以传达实在之设计意图。
研讨还强调,于 UI 生成之高阶阶段,领会相应领域专家之实在修改意图远比海量之模糊评分更为枢纽。
于处置“看懂”之疑难后,下一名应战为如何让模型写出高品质之 UI 代码。
光阴来到 2025 年 9 月,研讨团队于一项最新研讨中展示之彼等之最终成果,彼等推出之一款贴合 UI 设计师日常工流之回馈器物,允许设计师“评论”(Commenting)、“绘图标注”(Sketching)甚至直接“修改”(Revising)AI 生成之界面,对其提供回馈。
为之让 AI 也能做出苹果级别之优质设计,研讨者员将目光投向之苍生设计师之专业学识。
此项技艺成处置之“体谅需求”与“写出能跑之代码”之间之 UI 营造鸿沟,确立之使用自动化器物回馈来提升代码生成品质之技艺范式。
苹果(Apple)公司之研讨团队认为,做好 UI 设计之枢纽于于设计师之“隐性领域学识”(tacit domain knowledge)。
只有同时通过编译查验且视觉评分高之代码,才会被用于微调模型。
为之处置此一感知瓶颈,研讨团队率先于 2024 年 4 月推出之 Ferret-UI 模型。
苹果团队并不想止步于此。
此种办理方式如同给之 AI 一把清晰之“放大镜”,使其能够捕捉到微小之 UI 元素。
实验数据表明,相比于简之较量排名,苍生设计师直接上手修改之调理数据具有极高之一致性,大模型由此得以精准捕捉到设计师于陈设、层级与美学方面之隐性学识。
Cluster。众所周知,于苹果玄思中,“设计”从来不仅仅意味之外观,它为功能之灵性,更为其软硬件性命难以被逾越之护城河。
于 UI 掘发中,代码不仅要语法正确,还须能被编译器接受,同时渲染出符合预期之视觉效果。
https://arxiv.org/pdf/2404.05719 https://9to5mac.com/2026/02/05/designers-teach-ai-to-generate-better-ui-in-new-apple-study/ https://9to5mac.com/2025/08/14/apple-trained-an-llm-to-teach-itself-good-interface-design-in-swiftui/ 通过于涵盖图标识别、文本查找、组件列表等根基差事,包含功能推断、交互对话等高级差事之精选数据集上进行操练,Ferret-UI 展现出之卓越之指代(Referring)与定位(Grounding)本领,其能描述屏幕实质,办理点、框、线条等方位指令皆不于话下,还能对实在实质进行精确之坐标区域定位,于体谅移动 UI 之根基差事方面甚至逾越之当时占据居先身价之 GPT-4V 模型。
然而,面对图象用户界面(UI)此一占据现代应用程序半壁江山之领域时,它们往往显得力不从心。
山重水复疑无路,柳暗花明又一村。UI 掘发为一项涉及多差事办理之繁杂工,一名能够从头设计 UI 之大模型,须具备像素级之视觉体谅本领、能够生成逻辑严谨之可编译代码,还要有符合苍生审美与交互直觉之设计裁决力。
https://arxiv.org/pdf/2310.04869 最终,此项历时近三年之系列研讨工共同构成之一名完整之技艺演进链条:Ferret-UI 赋予之 AI 精准之视觉感知本领,UICoder 通过自动化回馈处置之代码实现之营造难题,而基于设计师回馈之研讨则注入之苍生之审美与设计智谋。
通用 AI 最多能写出逻辑正确之代码,却缺乏对苍生交互直觉之深刻体谅,简而言之,AI“没品味”,也不知道什么为真正之“好设计”。