大模型落地端侧的“减脂增肌”迎来重大突破。腾讯混元今日正式发布面向消费级硬件的极小模型 HY-1.8B-2Bit。该模型通过首个产业级2Bit 量化方案,将等效参数量精简至 0.3B,内存占用仅约 600MB,体积甚至小于部分常用的手机应用。

腾讯混元推出首个产业级2Bit端侧模型:0.3B体量实现性能逆袭

技术突破:2Bit量化的“不可能任务”

在模型部署中,量化位数越低,精度损失通常越大。为攻克这一难题,腾讯混元团队放弃了传统的 PTQ(后量化)策略,转而采用 量化感知训练(QAT),并结合数据优化、弹性拉伸量化及策略创新。

实验数据表明,HY-1.8B-2Bit 在数学、代码及科学等核心指标上,表现已能与4Bit PTQ 模型版本持平。这意味着在大幅压缩体积的同时,模型依然保持了极强的“全科能力”。

腾讯混元推出首个产业级2Bit端侧模型:0.3B体量实现性能逆袭

腾讯混元推出首个产业级2Bit端侧模型:0.3B体量实现性能逆袭

性能表现:生成速度翻倍,适配多种硬件

得益于极致的压缩,该模型在真实端侧设备上的生成速度对比原始精度模型提升了 2—3倍。具体表现如下:

  • MacBook M4: 在1024输入内,首字时延实现 3~8倍 加速,生成速度保持2倍以上稳定提升。

  • 天玑9500: 对比 Q4格式,首字时延加速 1.5~2倍,生成速度加速约 1.5倍

  • 全思考能力: 沿用 Hunyuan-1.8B-Instruct 的长短思维链能力,用户可根据任务复杂度灵活切换。

未来布局

目前,该模型已提供 GGUF-int2 格式权重,并在 Arm SME2 技术平台上完成适配,可广泛应用于手机、耳机及智能家居等对离线部署和隐私有极高要求的场景。腾讯混元表示,未来将通过强化学习与模型蒸馏,进一步缩小低比特模型与全精度模型的能力差距。