https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF https://github.com/Tencent/AngelSlim 当前,HY-1.8B-2Bit之本领仍受限于督察微调(SFT)之操练流程,以及根基模型本身之性能与抗压本领。
该模型基于首名产业级2比特(Bit)端侧量化预案,通过对此前混元之小尺寸言辞模型HY-1.8B-Instruct进行2比特量化感知操练(QAT)产出。
Void。https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf。
此一模型对比原始精度模型等效参数量降低6倍,沿用原模型全思考本领,可根据差事繁度切换长/短思维链;同时于确凿端侧设备上生成速度提升2-3倍。
https://huggingface.co/AngelSlim/HY-1.8B-2Bit ▲HY-1.8B-2Bit模型生成效果,2bit量化后之模型速度明显更快 ▲ HY-1.8B原始精度模型生成效果 结语:模型“瘦身”,加速端边侧智能演进 https://huggingface.co/AngelSlim/HY-1.8B-2Bit 于天玑9500上同样进行之测试,对比HY-1.8B-Q4格式首字时延能够加速1.5~2倍,生成速度加速约1.5倍。
于MacBook M4芯片上,HY-1.8B-2Bit固定之线程数为2测试之不同窗口大小下之首字时延与生成速度,模型选定fp16、Q4、HY-1.8B-2Bit三种gguf格式作为对比,首字时延于1024输入内能够保3~8倍之加速,生成速度上常用窗口下对比原始模型精度,HY-1.8B-2Bit能够实现至少2倍稳固加速。
比特为计算机存储之最小单位,一般模型之精度有2比特、4比特、8比特、32比特等表示法门,数值越大模型之精度更高,所占之内存就越大。
针对此一疑难,混元团队前景将要点转向强化修习与模型蒸馏等技艺路径,以期进一步缩低比特量化模型与全精度模型之间之本领差距。
虽2比特量化之精度损失较大,但通过QAT与前卫之量化计策,团队已能让2比特模型接近全精度模型之性能,对比4比特PTQ模型版本数学、代码、格致等指标上表现相当。
上一篇:绿军22分逆转三杀热火5连胜:布朗29+7维金斯26分 武切首秀两双 下一篇:热气腾腾之华夏年|于“回头看”之眷恋中,收获“奋蹄去”之勇气