黔南缓粘结预应力钢绞线 0.3B参数，600MB内存！腾讯混元终了产业2Bit量化，端侧模子小如手机App

参数目仅0.3B，内存占用仅600MB黔南缓粘结预应力钢绞线，适端侧部署还带念念维链的模子来了。

腾讯混元新出头向消费硬件场景的"小"模子HY-1.8B-2Bit，体量甚而比常用的些手狡滑骗还小。

该模子基于混元团队创的产业 2Bit 端侧量化案，通过对此前混元的小尺寸言语模子—— HY-1.8B-Instruct 进行 2 比特量化感知教师（QAT）产出，对比原始精度模子等参数目裁汰了 6 倍，在沿用原模子全念念考才智同期，在信得过端侧建树上对比原始精度模子生成速率提高 2 — 3 倍，可大幅提高使用体验。

跟着大言语模子普及，奈何将模子在比如手机、耳机或者智能居建树讹诈，成为业界难题，尤其不少讹诈对模子的离线部署、奥密等王人有的需求，这就需要多大要在端侧运行的又小又强的模子。

端侧部署的张开，骨子上是条在"小而精，快而准"的贫窭探索之路，咱们既需要模子迷漫奢睿，能应酬变化无方的信得过需求，又须将它管束在其有限的硬件资源里面署并快速理，这就好像在给模子进行"减脂增肌，减重提质"。

△ HY-1.8B 原始精度模子

△ HY-1.8B-2Bit 模子

比特（Bit）是商酌机存储的小单元，1 比特能暗示 2 种情状（0 或 1），2 比特能暗示 4 种情状，依此类，般模子的精度有 2 比特、4 比特、8 比特、32 比特殊暗示法，数值越大模子的精度，所占的内存就越大。

手机号码：13302071130

固然 2 比特量化的精度去世较大，但通过 QAT 和的量化战术，也曾能让 2 比特模子接近全精度模子的能。

在模子才智面，对比 4 比特 PTQ 模子版块数学、代码、科学等方向上阐述格外，终明晰"小而强"的野心方向。同期，这模子也曾支捏了 gguf 步调，在信得过端侧建树上对比原始精度模子生成速率提高 2 — 3 倍，不错大幅提高用户使用体验。

此外，HY-1.8B-2Bit 模子还沿用了 Hunyuan-1.8B-Instruct 的全念念考才智，用户不错无邪使用，为浮浅的查询提供了浮松的念念维链，为复杂的任务提供了注重长念念维链，用户不错把柄其讹诈的复杂和资源铁心无邪地继承这两种模式。

时间上，量化行动大模子部署上线不成或缺的环，肩负了裁汰部署本钱与保精度的职责，大部分情况下关于 int4、int8、fp8 的压缩精度条目，承袭 PTQ 量化战术即可终了险些损，但跟着原始模子大小的收缩、压缩 bit 数的朝上裁汰，PTQ 带来的量化去世是巨大的。

因此，关于原始模子大小唯有 1.8B，量化 bit 数唯有 2bit 的 HY-1.8B-2Bit，混元团队承袭了量化感知教师战术，这显耀提高了量化后模子的能。

腾讯混元还通过数据化黔南缓粘结预应力钢绞线、弹拉伸量化以及教师战术改动三个法来大阻挡的提高 HY-1.8B-2Bit 的全科才智。

数据化

对不同类别的数据进行实验标明，提理科数据占比和加入合乎的长文数据大要赫然提 QAT 后模子的才智，钢绞线测这是由于量化后的模子关于逻辑理和长文的去世是要远广大于其他 Topic。因此，本次模子教师强化了这部分数据的比例行动 HY-1.8B-2Bit 的教师数据集。

弹拉伸量化

针对 2-bit 低精度的挑战，HY-1.8B-2Bit 在量化算法上进行了各异化布局。为了躲避 bit QAT 中常见案在低比特下致的精度坍塌，结前序征询，讹诈了"弹拉伸量化"（SEQ）战术。

SEQ 战术的中枢逻辑是遗弃了传统包含 0 值的非对称映射（如 INT2{-2, -1, 0, 1}），转而承袭 {-1.5, -0.5, 0.5, 1.5} 的对称映射案。这阅兵旨在通过平移量化重点，管理 2-bit 下有能受限的问题，从而大化动态范围的遮蔽才智。

配算法对量化区间缩放因子的自适合微调，该案显耀缓解了低精度下的信息流失，为 HY-1.8B-2Bit 在有限位宽下捕捉维特征区分提供了坚实的算法营救。

教师战术

教师感知量化，在教师阶段就让模子提前适合权重被量化到低比特数下产生的精度去世，腾讯混元团队选用 Instruct 模子而不是预教师权重行动 QAT 模子的运行化权重，以简约教师 token 使模子快拘谨。

2bit 量化和 bit 量化（3bit 以上）在 QAT 过程中存在显耀各异，其根柢原因在于 3bit 以上的量化信息去世并不大，QAT 主如果在在"赔偿"精度去世，模子权重保捏在原始区分隔壁；而 2bit 量化中，QAT 多的是种"重构"过程，权重区分会发生剧烈变化以适合新的低精度暗示。因此，教师配置的搜索尤为遑急。

为了快速锁定正确的教师配置，通过渊博的风洞检修在小边界数据下（10B）检修确定了的参配置，并通过不同 token 数目的对比实验确定低阻挡 token，以追求率与精度的佳均衡。终，教师 HY-1.8B-2Bit 所奢华的 token 数目仅为 Bitnet-2B 的 10，这意味着低比特模子的 QAT 教师不需要从预教师动手作念起，使用少的教师本钱就不错得到低比特版块的模子，为低 bit 的模子出产边界化带来信心。

部署面，腾讯混元提供了 HY-1.8B-2Bit 的 gguf-int2 步调的模子权重与 bf16 伪量化权重，对比原始精度模子，HY-1.8B-2Bit 施行模子大小直降 6 倍，仅有 300MB，大要无邪用于端侧建树上。该模子也已在 Arm 等商酌平台上完成适配，可部署于启用 Arm SME2 时间的迁徙建树上，并终了运行。

在 MacBook M4 芯片上，HY-1.8B-2Bit 固定了线程数为 2 测试了不同窗口大小下的字时延和生成速率，模子选用 fp16、Q4、HY-1.8B-2Bit 三种 gguf 步调行动对比，字时延在 1024 输入内大要保捏 3~8 倍的加快，生成速率上常用窗口下对比原始模子精度，HY-1.8B-2Bit 大要终了至少 2 倍褂讪加快。

在天玑 9500 上不异进行了测试，对比 HY-1.8B-Q4 步调字时延大要加快 1.5~2 倍，生成速率加快约 1.5 倍。

为在旯旮建树上终了大言语模子的无邪部署，HY-1.8B-2Bit 承袭了低比特量化时间，在保捏与 INT4-PTQ 法格外模子能的同期，终明晰在端侧建树上的褂讪理。

刻下，HY-1.8B-2Bit 的才智仍受限于监督微调（SFT）的教师经由，以及基础模子自己的能与抗压才智。针对这问题，混元团队将来将转向强化学习与模子蒸馏等时间旅途，以期朝上收缩低比特量化模子与全精度模子之间的才智差距，从而为旯旮建树上的大言语模子部署斥地繁多的讹诈远景。

风景长入：

https://github.com/Tencent/AngelSlim

模子地址：

https://huggingface.co/AngelSlim/HY-1.8B-2Bit

https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF

时间讲述地址：

https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf

键三连「点赞」「转发」「小心心」

宽宥在辩驳区留住你的见识！

— 完 —

咱们正在招聘名眼疾手快、关切 AI 的学术剪辑实习生 � �

感兴味的小伙伴宽宥关切 � � 了解细则

� � 点亮星标 � �

科技前沿进展逐日见黔南缓粘结预应力钢绞线

新闻资讯

黔南缓粘结预应力钢绞线 0.3B参数，600MB内存！腾讯混元终了产业2Bit量化，端侧模子小如手机App