版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ClawCon2026ClawCon2FairyClaw:
全端侧部署、
轻量安全的复数模型智能体杨仝北京大学PKU-DS实验室负责人2026
ClawCon2026
ClawCwCon2026
ClawCon2026杨仝北京大学yangtong@pku.edu.cn北京大学数据结构实验室iFairy:
首个2比特{±1,±i}复数基座大模型
推理仅加法,
手机可部署
ClawCon2026ClawCon22026
ClawCon2026
ClawC第一部分wCon2026
ClawCon20262北京大学数据结构实验室ClawCon2026ClawCon2
研究背景
从实数模型到复数模型
2比特高效量化算法
iFairy高效推理
iFairy模型2026
ClawCon2026
ClawC报告结构wCon2026
ClawCon2026北京大学数据结构实验室研究
背景ResearchBackgroundClawCon2026ClawCon2PART012026
ClawCon2026
ClawCwCon2026
ClawCon20264大语言的空间瓶颈——参数量巨大•
现代大模型通常拥有千亿甚至万亿个参数,存储这些参数非常昂贵。•我们希望尽可能减小存储每个参数所需的空间。北京大学数据结构实验室大语言的时间瓶颈——推理成本高•
大模型推理的计算成本很高,其核心是GEMM,
即矩阵乘法
。•
计算慢
、功耗高。ClawCon2026ClawCon22026
ClawCon2026
ClawC大模型同时面临时间瓶颈和空间瓶颈wCon2026
ClawCon20265北京大学数据结构实验室•
量化通过降低模型权重和激活值的精度来实现这一点,本质上是将高精度参数(例如FP32浮点数)转换为低精度格式(例如FP16
、BF16
、INT8
、NF4)
。•
模型尺寸更小:
量化大幅减少了模型所需的存储空间,使其更易于存储和分发。•内存使用量减少:在推理阶段(模型用于进行预测时),量化后的模型占用更少的内存,从而能够在资源有限的设备上运行。•
推理速度更快:许多硬件平台针对低精度计算进行了优化,在这些平台上运行量化模型可以显著加快推理速度。ClawCon2026ClawCon22026
ClawCon2026
ClawC模型量化wCon2026
ClawCon20266•
根据量化方案的不同,可以分为训练后量化(PTQ)和训练时量化(QAT)
。•PTQ(PostTrainingQuantization)无需再训练,
而是直接对预训练模型应用量化
。PTQ实现简单,但对模型性能的影响较大,复杂的PTQ算法会降低推理速度
。•
QAT(QuantizationAwareTraining)将权重量化融入LLM训练过程
。通过在训练过程中模拟低精度操作,模型能够学习适应量化噪声,从而提升性能。训练时做过,推理精度高。
北京大学数据结构实验室ClawCon2026ClawCon2•本工作关注极低比特QAT量化2026
ClawCon2026
ClawCPTQ和QATwCon2026
ClawCon2026现有方案—三值量化三值量化BitNet•
Microsoft于2023年提出的Bit
Net系列,探索二值和三值量化在语言模型中的可行性•
Bit
Netb1.58是其中表现最优的代表作,使用{-1,0,
1}对参数进行量化•因为log3≈
1.58,研究人员将这种三值量化方案称为b1.58北京大学数据结构实验室BitNet的问题:
三值量化{-1,0,
1}
需要2个比特,造成了25%空间的浪费
。激活可表示0,
0也有浪费
。ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026•当前所有研究都聚焦于在全精度模型(如LLaMA)上最小化量化误差,但量化误差不可能完全为零,
因此全精度模型的准确率构成了量化模型的精度上限
。迄今为止,还没有任何方法尝试突破这一“天花板
”。•
不同的量化算法,精度损失差异不大。•不再仅仅专注于减少量化误差,
而是首次尝试提升“天花板
”(全精度模型的准确率),抬足够高,量化2比特后甚至高于初始天花板
。푨풄풄ura
풚
풒uant=
푨풄풄ura풄
풚
풇uıı
−풑r풆풄풊s풊on
−
푬rroεr
풒uant北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawC如何进一步提升极低比特量化性能wCon2026
ClawCon20269北京大学数据结构实验室푨풄풄ura였풚였풒uant였=
푨풄풄ura풄였풚였풇uıı
−풑r풆풄풊s풊on
−
푬rroεr
풒uant•
iFairy:首个复数2-bit量化LLM•
将复数权重量化到复平面四次单位根{±1,±i}•四值量化后,乘法完全消除→推理仅需加法和交换•
优势:•
提升全精度模型的表达力→量化后更高精度•
完美对称+信息论最优的2-bit表示•
在PPL与下游任务上超越现有基线ClawCon2026ClawCon2iFairy首个2比特{±1,±i}复数基座大模型2026
ClawCon2026
ClawCwCon2026
ClawCon202610北京大学数据结构实验室从实数模型到复数模型Fromreal-valuedLLMstocomplex-valuedLLMsClawCon2026ClawCon2PART022026
ClawCon2026
ClawCwCon2026
ClawCon202611oWoMatMulSoftmaxRe(QKT)MatMulQ
K
VWQ
W
K
WV•
复数域下的线性层定义——Hermit
ian
InnerProduct
(埃尔米特内积)Y=W•
复数域下,
Hermit内积满足内积定义的三条性质•
对称性
、线性性
、正定性(iΛ2)
•
是良定义的•
复数模型的线性层均采用了上述设计北京大学数据结构实验室X
X
XE
=
Ere
+
푖Eim
Ere
E
imEmbre
Emb
imSoftmaxLMheadDecoder
LayerH=
[Hre
lHim]L×①
FFN中的三个矩阵也采用Hermite定义ClawCon2026ClawCon22026
ClawCon2026
ClawC从实数模型到复数模型—关键技术1•
将权重和激活从实数域扩展到复数域wCon2026
ClawCon2026푖푛put12•Embedding,采用双路Embedding设计•
使用两个Embedding层,分别对应实部和虚部•
最终的Embedding表示为E
=
Ere
+
푖Eim•Language
Model
Head设计•
模型的最后一层输出为复数激活•
将实部和虚部做拼接操作H=[Hre
Him]•
通过LM
Head层得到logitsE
=
Ere
+
푖Eim
Ere
E
imEmb
퐫e
Embim
②SoftmaxLMheadDecoder
LayerH=[Hre
Him]②L×北京大学数据结构实验室X
X
XoWoMatMulSoftmaxRe(QKT)MatMulQ
K
VWQ
W
K
WVClawCon2026ClawCon22026
ClawCon2026
ClawC从实数模型到复数模型—关键技术2wCon2026
ClawCon2026푖푛put13北京大学数据结构实验室E
=
Ere
+
푖EimH=
[HrelHim]•
Embedding在复平面均匀分布•
Embedding和LM
Head基本对称,设计是合理的X
X
XoWoMatMulSoftmaxRe(QKT)MatMulQ
K
VWQ
W
K
WVE
=
Ere
+
푖Eim
Ere
E
imEmb
퐫e
Embim
②SoftmaxLMheadDecoder
LayerH=
[Hre
lHim]②L×ClawCon2026ClawCon22026
ClawCon2026
ClawC从实数模型到复数模型—关键技术2•
双路Embedding
、LM拼接wCon2026
ClawCon2026푖푛put14北京大学数据结构实验室③E
=
Ere
+
푖Eim
Ere
E
imEmb
퐫e
EmbimSoftmaxLMheadDecoder
LayerH=
[Hre
lHim]L×oWoMatMulSoftmaxRe(QKT)MatMulQ
K
VWQ
W
K
WVX
X
XClawCon2026ClawCon2应用到复数模型中,具体地•乘积包含(n-m)项
,实现了相对位置编码
152026
ClawCon2026
ClawC从实数模型到复数模型—关键技术3•
位置编码:复平面天然是二维的,
RoPE可自然地wCon2026
ClawCon2026角标H代表共轭푖푛put16
Scharnhorst,
K.2001.Anglesincomplexvectorspaces.ActaAppl.
Math.,69:
95–103.oWoMatMulSoftmaxRe(QKT)
MatMul
④Q
K
VWQ
W
K
WV•
注意力机制的核心是衡量query和key的相似性•the
real
partofthe
Hermit
ian
inner
productcorrespondstotheso-called
Euclideananglebetweencomplexvectors•可利用现有的高效注意力kernel,
复用FlashAttention北京大学数据结构实验室E
=
Ere
+
푖Eim
Ere
E
imEmb
퐫e
EmbimSoftmaxLMheadDecoder
LayerH=
[Hre
lHim]L×X
X
XClawCon2026ClawCon22026
ClawCon2026
ClawC从实数模型到复数模型—关键技术4•
自注意力机制wCon2026
ClawCon2026푖푛put1.
Hermit
ian
lnner
ProductY=XW2.
双路Embedding和LM
Head拼接E
=
Ere
+
푖Eim
H=[Hre
Him]3.
位置编码
RoPE应用到复平面4.自注意力机制:
EuclideanangleoWoMatMulSoftmaxRe(QKT)MatMulQ
K
VWQ
W
K
WVX
X
X北京大学数据结构实验室E
=
Ere
+
푖Eim
Ere
E
imEmb
퐫e
EmbimSoftmaxLMheadDecoder
LayerH=[Hre
Him]L×ClawCon2026ClawCon22026
ClawCon2026
ClawC从实数模型到复数模型—总结wCon2026
ClawCon2026푖푛put172比特高效量化算法北京大学数据结构实验室2BitEfficientQuantizationAlgorithmClawCon2026ClawCon2PART032026
ClawCon2026
ClawCwCon2026
ClawCon202618北京大学数据结构实验室P(W)
=__풊θ=Arg(W)∈
[__π/4
,
π/4]
∴
P(W)
=
풊
+
=
풊0
=+
1P(W)=+
1•参数量化:根据相位量化到四值集合{±1,±i}•
根据量化结果计算scaling
factorClawCon2026ClawCon2DequantizationAbsmax
Quantizationlayernorm푖푛putP(W)=__1Y
re,
Y
imWeightsin
{+
1,
__
1,+
푖,
__
푖}퐏퐡aseQ퐮antWeightsin
full
precision2026
ClawCon2026
ClawC权重量化—PhaseQuants
resim표utputwCon2026
ClawCon2026P(W)=+
풊Wim19reP
(W)
=+
1P
(W)
=+iimre=__DequantizationAbsmax
QuantizationlayernorminputY
re,
Y
imWeights
in
{+
1,
__
1,
+
i,
__
i}phaseQuantWeights
in
fullprecisions
resimoutputP
(W)
=__i北京大学数据结构实验室•
参数量化
•
在训练时进行反量化
ClawCon2026ClawCon2P
(W)
12026
ClawCon2026
ClawC权重量化—QAT
量化感知训练wCon2026
ClawCon202620W北京大学数据结构实验室Weightsinfull
precisionP(W)
=__풊θ=Arg(W)∈
[__π/4
,
π/4]
∴
P(W)
=
풊
+
=
풊0
=+
1P(W)=+
1ClawCon2026ClawCon2Y
re,
Y
im퐏퐡aseQ퐮antlayernormAbsmax
QuantizationWeightsin
{+
1,
__
1,+
푖,
__
푖}DequantizationP(W)=__1激活的虚部同理2026
ClawCon2026
ClawCs
resim激活量化
표utputwCon2026
ClawCon2026P(W)=+
풊Wimre21高效推理EfficientInference北京大学数据结构实验室ClawCon2026ClawCon2PART042026
ClawCon2026
ClawCwCon2026
ClawCon202622•
通过四值量化,可以把线性层中的所有乘法转化为加法•
整个模型中最核心
、最庞大的矩阵乘法(GEMM),被彻底重构•
原本昂贵的浮点乘法运算,被完全替换为硬件成本很低的加法
、减法和数据交换操作•
这从根本上消除了计算瓶颈,
为实现数量级的推理加速提供了可能北京大学数据结构实验室ClawCon2026ClawCon2•PhaseQuant量化后,参数只有{±1,±i}这四个值•
对于任何激活,与四值参数的运算结果如下表2026
ClawCon2026
ClawC高效推理—乘法→加法wCon2026
ClawCon2026231.
例如,
对于参数的第一列[1,__1]T对应的编码(ldx)为00012.查表,
结果为a-c,
(b-d)i3.
同理,
对于参数[__푖,
푖]T
,
查表可知结果为(b-d),(-a+c)i③1.
激活是长度为2的向量[a+푏푖,
c+푑푖]2.
参数矩阵为2×2矩阵[__11,,
i]
①i__PhaseQuant示例与参数存储1.
考虑两个参数,
共有42=
16种可能2.
固定激活,
使用一个长度为16的LUT表存储所有可能的计算结果3
通过查表得到计算结果
②北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawC高效推理—使用LUT加速wCon2026
ClawCon202624北京大学数据结构实验室iFairy
训练ClawCon2026ClawCon2PART052026
ClawCon2026
ClawCwCon2026
ClawCon202625北京大学数据结构实验室SoftmaxLMheadH=
[Hre
Him]Feed-ForwordNetworkMulti-HeadL×
AttentionE
=
Ere
+
푖EimEre
E
imEmbre
Emb
im푖푛putComplexLinearwith
PhaseQuantoWoMatMulSoftmaxRe(QKT)MatMulW
DownW
Up푖푛putVWVXKW
KXQWQXReLU2W
GateClawCon2026ClawCon22026
ClawCon2026
ClawCiFairy整体架构wCon2026
ClawCon202626•Loss
CurveiFairy明显优于Bit
Net
b1.58北京大学数据结构实验室ClawCon2026ClawCon2•
训练超参:
两阶段linearlr调度和Weight
Decay•
训练数据:
Red
Pajama随机采样100BToken•
iFairy模型超参2026
ClawCon2026
ClawC模型训练wCon2026
ClawCon202627北京大学数据结构实验室•全精度:复数模型的性能是否优于同尺寸的实数模型?
•
量化模型:
iFairy是否优于Bit
Net
b1.58?ClawCon2026ClawCon22026
ClawCon2026
ClawC结果—语言建模能力wCon2026
ClawCon202628•全精度:复数模型的性能是否优于同尺寸的实数模型?
•
量化模型:
iFairy是否优于Bit
Net
b1.58?北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawC结果—下游任务wCon2026
ClawCon202629北京大学数据结构实验室ClawCon2026ClawCon2结果—量化权重分布•
对量化后权重的分析还发现,模型在训练后,这四个复数值{±1,±i}的分布非常均匀证明模型确实学会了充分利用这套全新的“编码系统
”。2026
ClawCon2026
ClawCwCon2026
ClawCon202630相比同尺寸全精度模型PPL常见任务Bit
Net损失约5%
(12.33→
12.87)损失约3%
(45.5→44.3)ParetoQ损失30%-40%
(6.15→8.6)损失5%-8%
(74.6→69.0)Bit
CPM4N/A损失约25%
(52.99→39.84)iFairy提高约1.5%
(10.21→
10.05)提高约1%
(46.21→46.52)北京大学数据结构实验室BitCPM4来自面壁智能作者超70人iFairy北大,
高三+
本科
+BitNet来自Microsoft核心论文5篇团队超20人ParetoQ来自Meta团队作者共16人ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026博1+硕1
,共10人
31比较杨
仝北京大学计算机学院研究员yangtong@https://yangtonghome.github.io/32Code
iFairy-700M
iFairy-1.3B北京大学数据结构实验室模型训练评测:
https://github.com/PKULab1806/Fairy-plus-minus-iiFairy-700M:https://huggingface.co/PKU-DS-LAB/Fairy-plus-minus-i-700MiFairy-1.3B:https://huggingface.co/PKU-DS-LAB/Fairy-plus-minus-i-1.3BArxiv:/abs/2508.05571ClawCon2026ClawCon2iFairy模型已全面开源欢迎体验,
Star&
Like!2026
ClawCon2026
ClawCwCon2026
ClawCon2026北京大学数据结构实验室Fairy2i:
复域变换实数LLM
复数LLM
实数变复数,
两比特如初
ClawCon2026ClawCon22026
ClawCon2026
ClawC第二部分wCon2026
ClawCon202633北京大学数据结构实验室ClawCon2026ClawCon2
研究背景
实数到复数模型无损转化
量化感知训练
残差量化
Fairy2i方法2026
ClawCon2026
ClawC报告结构wCon2026
ClawCon2026ResearchBackground研究
背景北京大学数据结构实验室ClawCon2026ClawCon2PART012026
ClawCon2026
ClawCwCon2026
ClawCon202635大语言的部署瓶颈——参数量巨大•
现代大模型参数量持续增长(7B→70B→
1T)
,显存成为大模型部署的主要瓶颈•
将权重压缩至1-2bits是解决存储瓶颈的终极手段,但是面临了巨大了挑战。主流技术路线的局限北京大学数据结构实验室QAT
(量化感知训练)如
i
Fairy
和
BitNet
b1.58
。虽然效果好,但通常需要从头预训练
(Pre-train
fromscratch),无法复用
QwenLLaMA等现有权重,成本极高。ClawCon2026ClawCon2背景:
大模型部署的局限与大模型压缩PTQ
(训练后量化)在
≤2
bits
时精度严重崩塌(如GPTQ,
QuIP#)
。有限的码本无法拟合长尾分布,导致PTQ方法在1-2bit范围内表现欠佳。2026
ClawCon2026
ClawCwCon2026
ClawCon202636北京大学数据结构实验室信息密度对比复数
2-bit
(iFairy):
{±
1,
±푖
}=4个状态
。log24
=
2bits无比特浪费
(ZeroWaste)实数三值
(BitNet):|{−1,
0,1}|=3
个状态,
log23
≈
1.58
bits
。空间利用率仅
79%。复数权重引入了额外的自由度(幅度和相位)
,提供了更强的表达能力
。ClawCon2026ClawCon22
bit
Code
book:{±1,
±
푖}2026
ClawCon2026
ClawC机遇:
复数域的独特优势wCon2026
ClawCon202637北京大学数据结构实验室i
Fairy
虽然证明了复数
LLM
的潜力但要求Trainingfrom
Scratch
(从头训练)这意味着•无法高效复用LLaMA-2/3,
Qwen
等开源基座模型;•
训练成本极高(完整的预训练流程需要巨量算力
);•
难以在工业界快速落地。Fairy2i
的设计目标Real
Pre-trainedWeights
→
Complex
Quantized
Model从实数模型训练大规模2比特{±
1,
±
i}复数模型实现复用实数权重
与
高效复数量化
的完美结合ClawCon2026ClawCon22026
ClawCon2026
ClawC核心痛点:
i
Fairy的局限性wCon2026
ClawCon202638①
EquivalentWidely-LinearTransform②
Phase-Aware
Quantwith
2bit
Code
book③
Recursive
Residual
Quantization创新点1:
无损转化基于广义线性表示,保证实数模型到复数的无损转换创新点2:
高效性从实数模型出发进行量化感知训练,快速恢复精度,无需从头预训练Complex
LLM(2-bitWeights)创新点3:
残差量化对量化误差进行多次递归量化提高精度北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCFairy2i框架核心wCon2026
ClawCon2026(Pre-trained)Real
LLM39北京大学数据结构实验室从实数模型到复数模型Fromcomplex-valuedLLMstoequivalentreal-valuedLLMsClawCon2026ClawCon2PART022026
ClawCon2026
ClawCwCon2026
ClawCon202640对实数输入输出进行stack,可证明等价对R进行重参数化处理Re푼
=
(R11
+
R22)/2
|m푼
=
(R21
__
R12)/2
ReW
=
(R11
__
R22)/2
|mW
=
(R12
+
R21)/2广义复线性层푼
=
Re푼+
푖
.
|m푼W
=
ReW+
푖
.
|mWY
=
푼X+
Wx为了实现从实数模型到复数模型的无损转换,
引入共轭线性项,
构造广义复线性层Y
=
푼X+
W
x
(푼,W
∈
ℂm×n
)北京大学数据结构实验室ClawCon2026ClawCon2给定实数模型,考虑任一实线性层
R2026
ClawCon2026
ClawC从实数模型到复数模型可将R写成分块矩阵R
=
[
]输入维度为奇数时Padding补成偶数2112RR2111RRwCon2026
ClawCon202641北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon202642北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCLLM解释wCon2026
ClawCon202643北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026LLM解释443.关键性质:
运算等价北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026LLM解释北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026LLM解释46北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026LLM解释47北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCLLM解释wCon2026
ClawCon202648北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCLLM解释wCon2026
ClawCon202649北京大学数据结构实验室广义复线性层的兼容性优势前向传播等价:
初始化时,复数模型输出与原实数模型完全一致。FlashAttention兼容:
可展开为实数
操作,复用
CUDA
内核。ClawCon2026ClawCon2从实数模型到复数模型1.
线性投影层对
Q,
K,V,
O
及
FFN
中所有层应用变换输入维度为奇数时,
Padding补齐2.
自注意力使用厄米特内积的实部角标(.)H代表共轭转置2026
ClawCon2026
ClawCwCon2026
ClawCon202650北京大学数据结构实验室Quantizationaware
training量化感知训练ClawCon2026ClawCon2PART032026
ClawCon2026
ClawCwCon2026
ClawCon202651相位量化
PhaseQuant
再将实数线性层R转化为广义复线性层(U,W)之后复用iFairy使用的相位量化算法,将每一个复参数量化到{±1,±i}北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon202652相位量化
PhaseQuant
再将实数线性层R转化为广义复线性层(푼,
W)之后复用iFairy使用的相位量化算法,将每一个复参数量化到{±1,±푖
}北京大学数据广义复线性层(푼,
W)共有2mn个复数参数每个参数量化占用2bit总存储开销为2×2m푛=4m푛每个实数参数等效1bit量化原始的实线性层R参数量为2푛×2m=4mn2*2方块,
4个参数,
变身2个复数,
4个比特,
所以是1比特量化结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon202653高斯优化
(Gauss's
o3ri
h实m数)乘法k1
=
c
×
(a
+푏)k2
=
a
×
(푑−c)k3
=
푏
×
(c
+푑)푅e
=
k1−k3,
퐼m
=
k1+k2矩阵乘减少
25%,
显著提升训练速度北京大学数据结构实验室ClawCon2026ClawCon2标准复数乘法(a+푏푖)(c+푑푖)
需要
4
次实数乘法2026
ClawCon2026
ClawC训练加速:
高斯优化Re
=
ac
−푏푑Im
=
a푑+
푏cwCon2026
ClawCon202654残差量化北京大学数据结构实验室ResidualerrorquantizationClawCon2026ClawCon2PART042026
ClawCon2026
ClawCwCon2026
ClawCon202655W原始全精度参数W(t)第t
轮量化参数(t)
(t)sre
,
sim第t
轮scalingfactorWq最终量化参数北京大学数据结构实验室第t
轮残差每一项
W(t)
都是来自{±1,±푖
}的低比特权重ClawCon2026ClawCon2动机单次量化误差较大,
Fairy2i的原始版本,
每个参数只有1bit与其增加码本,
导致存储不可控,
不如多轮量化残差2026
ClawCon2026
ClawC残差量化wCon2026
ClawCon2026푅
(t)56W原始全精度参数W(t)第t轮量化参数(t)
(t)sre
,
sim第t轮scalingfactorWq最终量化参数北京大学数据结构实验室第t轮残差T=
1,
即为原始Fairy2iT增加1,
每权重存储+1bit对于任意T,
参数占用为T
bit每参数ClawCon2026ClawCon2动机单次量化误差较大,
Fairy2i的原始版本,
每个参数只有1bit与其增加码本,
导致存储不可控,
不如多轮量化残差2026
ClawCon2026
ClawC残差量化wCon2026
ClawCon2026R(t)57北京大学数据结构实验室W原始全精度参数W(t)第t轮量化参数(t)
(t)sre
,
sim第t轮scalingfactorWq最终量化参数第t轮残差不同的权重可以并行推理不会显著增加推理延迟延迟增加项为求和操作的时间ClawCon2026ClawCon2动机单次量化误差较大,
Fairy2i的原始版本,
每个参数只有1bit与其增加码本,
导致存储不可控,
不如多轮量化残差2026
ClawCon2026
ClawC残差量化wCon2026
ClawCon2026R(t)58PART05Fairy2i
实现与评估北京大学数据结构实验室ImplementationandEvaluationof
Fairy2iFrameworkClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon202659Fairy2i-W1
(T
=
1)
U,
W
(复数)2
bits
1
bit配置参数形式每参数比特等效实数比特北京大学数据结构实验室对比基线●
FP16:
原始全精度●
PTQ:
GPTQ,
QuIP#,AQLM●
QAT:
BitNet
(1bit/1.58bit)模型与数据●模型:
LLaMA-2
7B
(Pre-trained)●数据:
Red
Pajama
(30B
tokens)●指标:
PPL
(C4),
Zero-shotAccuracyClawCon2026ClawCon2Fairy2i-W2
(T
=2)
U,
W
(复数)2
bits
×
22
bits2026
ClawCon2026
ClawCFairy2i实现wCon2026
ClawCon202660•在语言建模能力(C4数据集PPL)
上,
Fairy2i-W2(2-bit)取得了7.85的困惑度,这一数据不仅远好于PTQ方法,
且接近全精度FP16的水平
。•在下游任务(Zero-shot
Accuracy)
评测中,
Fairy2i同样表现强劲,
其平均准确率达到了62.00%,
与全精度模型接近
。北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawC实验结果wCon2026
ClawCon202661北京大学数据结构实验室消融实验●T=1
→T=2:
PPL
降低
20.76%,Task提升
19.03%●结论:递归一次(T=2)是精度与效率的最佳平衡点ClawCon2026ClawCon22026
ClawCon2026
ClawC实验结果wCon2026
ClawCon2026核心贡献●通用性:Widely-Linear
实现无损转换●
高性能:
Recursive
Residual达到SOTA●低成本:
复用实数权重,无需从头训练未来工作●算子工程:
专用
CUDA/CPU
Kernels●模型扩展:例如
LLaMA-3
70B●理论分析:
复数
Loss
Landscape北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCFairy2i总结wCon2026
ClawCon202663北京大学数据结构实验室异步事件驱动的后端Agent
运行时AsynchronousEvent-DrivenBackend
AgentRuntimeClawCon2026ClawCon2FairyClaw2026
ClawCon2026
ClawC第三部分wCon2026
ClawCon20266ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026ClawCon2026ClawCon2常见agent执行模式:
ReAct思考+执行工具实际实现时不会那么严格要求执行这种循环,通常退化为只判断本轮有无工具调用来决定是否结束循环2026
ClawCon2026
ClawCwCon2026
ClawCon2026北京大学数据结构实验室常见agent执行模式:
Plan-and-ExcuteClawCon2026ClawCon2先做计划,
然后严格按照计划构建上下文和进行执行太过复杂,
实际实现也会退化为ReAct+todo_list辅助2026
ClawCon2026
ClawCwCon2026
ClawCon2026北京大学数据结构实验室基本都是学术界的做法,
工业界就算要借鉴也是在ReAct基础上打补丁,
比如就连Plan-and-Excute都是做了工具可见性+提示词的补丁实现DAG的做法则是另一种应用场景,
比如字节的Coze,并非openclaw一样的智能助手ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
ClawCon2026其它Formal
Skill结构化描述Skill字段严格定义程序执行
减少幻觉更少的token消耗成本低廉打工人友好PART
06FairyClaw6智能路由选择符合当前场景的Skill北京大学数据结构实验室单步推理
+总线事件发布异步事件驱动的后端Agent
运行时AsynchronousEvent-DrivenBackend
AgentRuntimeClawCon2026ClawCon2强类型中间表示易于拓展和定制2026
ClawCon2026
ClawCPlanner规划+子agent执行架构wCon2026
ClawCon2026场景挑战
&
产品定位场景挑战:
面对长连接
、
多会话
、高可用性和可恢复性的后端服务场景,
对系统稳定性要求极高
。
同时,token费用的支出已经渐渐成为了重大负担产品定位:FairyClaw
是一个可插拔
、
长期运行的服务端Agent
编排内核,
具有极强的可拓展性,
可做各种定制,
而非一个已经功能完备的端到端个人助手。北京大学数据结构实验室核心设计目标●提供干净
、
可预期的主执行路径,
降低系统复杂度●深度支持插件化扩展,
快速适配业务需求。●完全满足后台任务
、
多会话管理
、
自动化运维等复
杂场景的稳定性需求。●省token,
便宜
。
更少的API调用次数和更短的平均
上下文架构清晰易维护支持动态加载新技能插件,
无需重启
内核即可快速响应新的业务场景需求。Agent
执行流程逻辑可视化,
代码结构清晰,
极大地降低了系统调试与长期维护的成本。ClawCon2026ClawCon2任务高准确率提供明确的步骤引导与约束,
减少大模型的理解偏差,
确保复杂任务的执行成功率。2026
ClawCon2026
ClawC我们要解决什么?省Token
高效使用结构化指令替代大段自然语言描述,
大幅压缩上下文长度,
降低Token
消耗。wCon2026
ClawCon2026插件化灵活扩展04Markdown格式人类友好
4对AI来说是半结构化信息查询天气是一个相对简单的任务,
但是它的Skill.md有129
行700+token北京大学数据结构实验室ClawCon2026ClawCon2Skill与传统Skill对比2026
ClawCon2026
ClawCSkill重构:
Formal传统Skill.md:以openclaw的Weather为例wCon2026
ClawCon2026北京大学数据结构实验室json文件的token量减少一半以上且能更好利用前缀缓存(缓存命中的token的
价格通常为未命中token的1/10)完全结构化信息,
减少模型调用误差且利用模型原生工具调用能力+
系统执行
weather.pyweather.py
文件内容不喂给模型,
即不消耗tokenPython脚本执行的结果确定且可重复
、可定制
、可观测
、可追溯ClawCon2026ClawCon2Skill与传统Skill对比2026
ClawCon2026
ClawCFormalSkill:Skill重构:
FormalwCon2026
ClawCon20264Token
消耗关键公式Token消耗总量
=平均单次上下文长度*API调用次数北京大学数据结构实验室ClawCon2026ClawCon22026
ClawCon2026
ClawCwCon2026
C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三年期固定期限劳动合同
- 清算资产整体转让合同
- 水稻绿色高质高效栽培工程师考试试卷及答案
- 食用油压榨技师考试试卷及答案
- 森林病虫害防治工程师考试试卷及答案
- 中科软三方协议书
- 齐鲁金融合作协议书
- 龙岗回迁房买卖协议书
- 采样机检定报告技术协议书
- 道路施工技术组织措施
- 2026江苏省铁路集团有限公司春季校园招聘笔试备考题库及答案解析
- 2026年新版卫生法律法规考试题及答案
- 2026年四川省绵阳市中考化学模拟预测试卷
- 江西生物科技职业学院《公共经济学》2025-2026学年期末试卷
- 医院三合理一规范培训
- T/CATCM 032-2024中药配方颗粒临床使用指南
- 第19课+资本主义国家的新变化+说课稿 高一下学期统编版(2019)必修中外历史纲要下
- 加油站双重预防体系
- 《各种偷盗行为处理》课件
- 电工电气职业生涯规划书
- 2023年江苏省苏州工业园区部分单位招聘36人笔试参考题库(共500题)答案详解版
评论
0/150
提交评论