ClawCon2026·第一届龙虾AI大会:FairyClaw:全端侧部署、轻量安全的复数模型智能体_第1页
ClawCon2026·第一届龙虾AI大会:FairyClaw:全端侧部署、轻量安全的复数模型智能体_第2页
ClawCon2026·第一届龙虾AI大会:FairyClaw:全端侧部署、轻量安全的复数模型智能体_第3页
ClawCon2026·第一届龙虾AI大会:FairyClaw:全端侧部署、轻量安全的复数模型智能体_第4页
ClawCon2026·第一届龙虾AI大会:FairyClaw:全端侧部署、轻量安全的复数模型智能体_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ClawCon2026ClawCon2FairyClaw:

全端侧部署、

轻量安全的复数模型智能体杨仝北京大学PKU-DS实验室负责人2026

ClawCon2026

ClawCwCon2026

ClawCon2026杨仝北京大学yangtong@pku.edu.cn北京大学数据结构实验室iFairy:

首个2比特{±1,±i}复数基座大模型

推理仅加法,

手机可部署

ClawCon2026ClawCon22026

ClawCon2026

ClawC第一部分wCon2026

ClawCon20262北京大学数据结构实验室ClawCon2026ClawCon2

研究背景

从实数模型到复数模型

2比特高效量化算法

iFairy高效推理

iFairy模型2026

ClawCon2026

ClawC报告结构wCon2026

ClawCon2026北京大学数据结构实验室研究

背景ResearchBackgroundClawCon2026ClawCon2PART012026

ClawCon2026

ClawCwCon2026

ClawCon20264大语言的空间瓶颈——参数量巨大•

现代大模型通常拥有千亿甚至万亿个参数,存储这些参数非常昂贵。•我们希望尽可能减小存储每个参数所需的空间。北京大学数据结构实验室大语言的时间瓶颈——推理成本高•

大模型推理的计算成本很高,其核心是GEMM,

即矩阵乘法

。•

计算慢

、功耗高。ClawCon2026ClawCon22026

ClawCon2026

ClawC大模型同时面临时间瓶颈和空间瓶颈wCon2026

ClawCon20265北京大学数据结构实验室•

量化通过降低模型权重和激活值的精度来实现这一点,本质上是将高精度参数(例如FP32浮点数)转换为低精度格式(例如FP16

、BF16

、INT8

、NF4)

。•

模型尺寸更小:

量化大幅减少了模型所需的存储空间,使其更易于存储和分发。•内存使用量减少:在推理阶段(模型用于进行预测时),量化后的模型占用更少的内存,从而能够在资源有限的设备上运行。•

推理速度更快:许多硬件平台针对低精度计算进行了优化,在这些平台上运行量化模型可以显著加快推理速度。ClawCon2026ClawCon22026

ClawCon2026

ClawC模型量化wCon2026

ClawCon20266•

根据量化方案的不同,可以分为训练后量化(PTQ)和训练时量化(QAT)

。•PTQ(PostTrainingQuantization)无需再训练,

而是直接对预训练模型应用量化

。PTQ实现简单,但对模型性能的影响较大,复杂的PTQ算法会降低推理速度

。•

QAT(QuantizationAwareTraining)将权重量化融入LLM训练过程

。通过在训练过程中模拟低精度操作,模型能够学习适应量化噪声,从而提升性能。训练时做过,推理精度高。

北京大学数据结构实验室ClawCon2026ClawCon2•本工作关注极低比特QAT量化2026

ClawCon2026

ClawCPTQ和QATwCon2026

ClawCon2026现有方案—三值量化三值量化BitNet•

Microsoft于2023年提出的Bit

Net系列,探索二值和三值量化在语言模型中的可行性•

Bit

Netb1.58是其中表现最优的代表作,使用{-1,0,

1}对参数进行量化•因为log3≈

1.58,研究人员将这种三值量化方案称为b1.58北京大学数据结构实验室BitNet的问题:

三值量化{-1,0,

1}

需要2个比特,造成了25%空间的浪费

。激活可表示0,

0也有浪费

。ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026•当前所有研究都聚焦于在全精度模型(如LLaMA)上最小化量化误差,但量化误差不可能完全为零,

因此全精度模型的准确率构成了量化模型的精度上限

。迄今为止,还没有任何方法尝试突破这一“天花板

”。•

不同的量化算法,精度损失差异不大。•不再仅仅专注于减少量化误差,

而是首次尝试提升“天花板

”(全精度模型的准确率),抬足够高,量化2比特后甚至高于初始天花板

。푨풄풄ura

풒uant=

푨풄풄ura풄

풇uıı

−풑r풆풄풊s풊on

푬rroεr

풒uant北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawC如何进一步提升极低比特量化性能wCon2026

ClawCon20269北京大学数据结构实验室푨풄풄ura였풚였풒uant였=

푨풄풄ura풄였풚였풇uıı

−풑r풆풄풊s풊on

푬rroεr

풒uant•

iFairy:首个复数2-bit量化LLM•

将复数权重量化到复平面四次单位根{±1,±i}•四值量化后,乘法完全消除→推理仅需加法和交换•

优势:•

提升全精度模型的表达力→量化后更高精度•

完美对称+信息论最优的2-bit表示•

在PPL与下游任务上超越现有基线ClawCon2026ClawCon2iFairy首个2比特{±1,±i}复数基座大模型2026

ClawCon2026

ClawCwCon2026

ClawCon202610北京大学数据结构实验室从实数模型到复数模型Fromreal-valuedLLMstocomplex-valuedLLMsClawCon2026ClawCon2PART022026

ClawCon2026

ClawCwCon2026

ClawCon202611oWoMatMulSoftmaxRe(QKT)MatMulQ

K

VWQ

W

K

WV•

复数域下的线性层定义——Hermit

ian

InnerProduct

(埃尔米特内积)Y=W•

复数域下,

Hermit内积满足内积定义的三条性质•

对称性

、线性性

、正定性(iΛ2)

是良定义的•

复数模型的线性层均采用了上述设计北京大学数据结构实验室X

X

XE

=

Ere

+

푖Eim

Ere

E

imEmbre

Emb

imSoftmaxLMheadDecoder

LayerH=

[Hre

lHim]L×①

FFN中的三个矩阵也采用Hermite定义ClawCon2026ClawCon22026

ClawCon2026

ClawC从实数模型到复数模型—关键技术1•

将权重和激活从实数域扩展到复数域wCon2026

ClawCon2026푖푛put12•Embedding,采用双路Embedding设计•

使用两个Embedding层,分别对应实部和虚部•

最终的Embedding表示为E

=

Ere

+

푖Eim•Language

Model

Head设计•

模型的最后一层输出为复数激活•

将实部和虚部做拼接操作H=[Hre

Him]•

通过LM

Head层得到logitsE

=

Ere

+

푖Eim

Ere

E

imEmb

퐫e

Embim

②SoftmaxLMheadDecoder

LayerH=[Hre

Him]②L×北京大学数据结构实验室X

X

XoWoMatMulSoftmaxRe(QKT)MatMulQ

K

VWQ

W

K

WVClawCon2026ClawCon22026

ClawCon2026

ClawC从实数模型到复数模型—关键技术2wCon2026

ClawCon2026푖푛put13北京大学数据结构实验室E

=

Ere

+

푖EimH=

[HrelHim]•

Embedding在复平面均匀分布•

Embedding和LM

Head基本对称,设计是合理的X

X

XoWoMatMulSoftmaxRe(QKT)MatMulQ

K

VWQ

W

K

WVE

=

Ere

+

푖Eim

Ere

E

imEmb

퐫e

Embim

②SoftmaxLMheadDecoder

LayerH=

[Hre

lHim]②L×ClawCon2026ClawCon22026

ClawCon2026

ClawC从实数模型到复数模型—关键技术2•

双路Embedding

、LM拼接wCon2026

ClawCon2026푖푛put14北京大学数据结构实验室③E

=

Ere

+

푖Eim

Ere

E

imEmb

퐫e

EmbimSoftmaxLMheadDecoder

LayerH=

[Hre

lHim]L×oWoMatMulSoftmaxRe(QKT)MatMulQ

K

VWQ

W

K

WVX

X

XClawCon2026ClawCon2应用到复数模型中,具体地•乘积包含(n-m)项

,实现了相对位置编码

152026

ClawCon2026

ClawC从实数模型到复数模型—关键技术3•

位置编码:复平面天然是二维的,

RoPE可自然地wCon2026

ClawCon2026角标H代表共轭푖푛put16

Scharnhorst,

K.2001.Anglesincomplexvectorspaces.ActaAppl.

Math.,69:

95–103.oWoMatMulSoftmaxRe(QKT)

MatMul

④Q

K

VWQ

W

K

WV•

注意力机制的核心是衡量query和key的相似性•the

real

partofthe

Hermit

ian

inner

productcorrespondstotheso-called

Euclideananglebetweencomplexvectors•可利用现有的高效注意力kernel,

复用FlashAttention北京大学数据结构实验室E

=

Ere

+

푖Eim

Ere

E

imEmb

퐫e

EmbimSoftmaxLMheadDecoder

LayerH=

[Hre

lHim]L×X

X

XClawCon2026ClawCon22026

ClawCon2026

ClawC从实数模型到复数模型—关键技术4•

自注意力机制wCon2026

ClawCon2026푖푛put1.

Hermit

ian

lnner

ProductY=XW2.

双路Embedding和LM

Head拼接E

=

Ere

+

푖Eim

H=[Hre

Him]3.

位置编码

RoPE应用到复平面4.自注意力机制:

EuclideanangleoWoMatMulSoftmaxRe(QKT)MatMulQ

K

VWQ

W

K

WVX

X

X北京大学数据结构实验室E

=

Ere

+

푖Eim

Ere

E

imEmb

퐫e

EmbimSoftmaxLMheadDecoder

LayerH=[Hre

Him]L×ClawCon2026ClawCon22026

ClawCon2026

ClawC从实数模型到复数模型—总结wCon2026

ClawCon2026푖푛put172比特高效量化算法北京大学数据结构实验室2BitEfficientQuantizationAlgorithmClawCon2026ClawCon2PART032026

ClawCon2026

ClawCwCon2026

ClawCon202618北京大学数据结构实验室P(W)

=__풊θ=Arg(W)∈

[__π/4

,

π/4]

P(W)

=

+

=

풊0

=+

1P(W)=+

1•参数量化:根据相位量化到四值集合{±1,±i}•

根据量化结果计算scaling

factorClawCon2026ClawCon2DequantizationAbsmax

Quantizationlayernorm푖푛putP(W)=__1Y

re,

Y

imWeightsin

{+

1,

__

1,+

푖,

__

푖}퐏퐡aseQ퐮antWeightsin

full

precision2026

ClawCon2026

ClawC权重量化—PhaseQuants

resim표utputwCon2026

ClawCon2026P(W)=+

풊Wim19reP

(W)

=+

1P

(W)

=+iimre=__DequantizationAbsmax

QuantizationlayernorminputY

re,

Y

imWeights

in

{+

1,

__

1,

+

i,

__

i}phaseQuantWeights

in

fullprecisions

resimoutputP

(W)

=__i北京大学数据结构实验室•

参数量化

在训练时进行反量化

ClawCon2026ClawCon2P

(W)

12026

ClawCon2026

ClawC权重量化—QAT

量化感知训练wCon2026

ClawCon202620W北京大学数据结构实验室Weightsinfull

precisionP(W)

=__풊θ=Arg(W)∈

[__π/4

,

π/4]

P(W)

=

+

=

풊0

=+

1P(W)=+

1ClawCon2026ClawCon2Y

re,

Y

im퐏퐡aseQ퐮antlayernormAbsmax

QuantizationWeightsin

{+

1,

__

1,+

푖,

__

푖}DequantizationP(W)=__1激活的虚部同理2026

ClawCon2026

ClawCs

resim激活量化

표utputwCon2026

ClawCon2026P(W)=+

풊Wimre21高效推理EfficientInference北京大学数据结构实验室ClawCon2026ClawCon2PART042026

ClawCon2026

ClawCwCon2026

ClawCon202622•

通过四值量化,可以把线性层中的所有乘法转化为加法•

整个模型中最核心

、最庞大的矩阵乘法(GEMM),被彻底重构•

原本昂贵的浮点乘法运算,被完全替换为硬件成本很低的加法

、减法和数据交换操作•

这从根本上消除了计算瓶颈,

为实现数量级的推理加速提供了可能北京大学数据结构实验室ClawCon2026ClawCon2•PhaseQuant量化后,参数只有{±1,±i}这四个值•

对于任何激活,与四值参数的运算结果如下表2026

ClawCon2026

ClawC高效推理—乘法→加法wCon2026

ClawCon2026231.

例如,

对于参数的第一列[1,__1]T对应的编码(ldx)为00012.查表,

结果为a-c,

(b-d)i3.

同理,

对于参数[__푖,

푖]T

查表可知结果为(b-d),(-a+c)i③1.

激活是长度为2的向量[a+푏푖,

c+푑푖]2.

参数矩阵为2×2矩阵[__11,,

i]

①i__PhaseQuant示例与参数存储1.

考虑两个参数,

共有42=

16种可能2.

固定激活,

使用一个长度为16的LUT表存储所有可能的计算结果3

通过查表得到计算结果

②北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawC高效推理—使用LUT加速wCon2026

ClawCon202624北京大学数据结构实验室iFairy

训练ClawCon2026ClawCon2PART052026

ClawCon2026

ClawCwCon2026

ClawCon202625北京大学数据结构实验室SoftmaxLMheadH=

[Hre

Him]Feed-ForwordNetworkMulti-HeadL×

AttentionE

=

Ere

+

푖EimEre

E

imEmbre

Emb

im푖푛putComplexLinearwith

PhaseQuantoWoMatMulSoftmaxRe(QKT)MatMulW

DownW

Up푖푛putVWVXKW

KXQWQXReLU2W

GateClawCon2026ClawCon22026

ClawCon2026

ClawCiFairy整体架构wCon2026

ClawCon202626•Loss

CurveiFairy明显优于Bit

Net

b1.58北京大学数据结构实验室ClawCon2026ClawCon2•

训练超参:

两阶段linearlr调度和Weight

Decay•

训练数据:

Red

Pajama随机采样100BToken•

iFairy模型超参2026

ClawCon2026

ClawC模型训练wCon2026

ClawCon202627北京大学数据结构实验室•全精度:复数模型的性能是否优于同尺寸的实数模型?

量化模型:

iFairy是否优于Bit

Net

b1.58?ClawCon2026ClawCon22026

ClawCon2026

ClawC结果—语言建模能力wCon2026

ClawCon202628•全精度:复数模型的性能是否优于同尺寸的实数模型?

量化模型:

iFairy是否优于Bit

Net

b1.58?北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawC结果—下游任务wCon2026

ClawCon202629北京大学数据结构实验室ClawCon2026ClawCon2结果—量化权重分布•

对量化后权重的分析还发现,模型在训练后,这四个复数值{±1,±i}的分布非常均匀证明模型确实学会了充分利用这套全新的“编码系统

”。2026

ClawCon2026

ClawCwCon2026

ClawCon202630相比同尺寸全精度模型PPL常见任务Bit

Net损失约5%

(12.33→

12.87)损失约3%

(45.5→44.3)ParetoQ损失30%-40%

(6.15→8.6)损失5%-8%

(74.6→69.0)Bit

CPM4N/A损失约25%

(52.99→39.84)iFairy提高约1.5%

(10.21→

10.05)提高约1%

(46.21→46.52)北京大学数据结构实验室BitCPM4来自面壁智能作者超70人iFairy北大,

高三+

本科

+BitNet来自Microsoft核心论文5篇团队超20人ParetoQ来自Meta团队作者共16人ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026博1+硕1

,共10人

31比较杨

仝北京大学计算机学院研究员yangtong@https://yangtonghome.github.io/32Code

iFairy-700M

iFairy-1.3B北京大学数据结构实验室模型训练评测:

https://github.com/PKULab1806/Fairy-plus-minus-iiFairy-700M:https://huggingface.co/PKU-DS-LAB/Fairy-plus-minus-i-700MiFairy-1.3B:https://huggingface.co/PKU-DS-LAB/Fairy-plus-minus-i-1.3BArxiv:/abs/2508.05571ClawCon2026ClawCon2iFairy模型已全面开源欢迎体验,

Star&

Like!2026

ClawCon2026

ClawCwCon2026

ClawCon2026北京大学数据结构实验室Fairy2i:

复域变换实数LLM

复数LLM

实数变复数,

两比特如初

ClawCon2026ClawCon22026

ClawCon2026

ClawC第二部分wCon2026

ClawCon202633北京大学数据结构实验室ClawCon2026ClawCon2

研究背景

实数到复数模型无损转化

量化感知训练

残差量化

Fairy2i方法2026

ClawCon2026

ClawC报告结构wCon2026

ClawCon2026ResearchBackground研究

背景北京大学数据结构实验室ClawCon2026ClawCon2PART012026

ClawCon2026

ClawCwCon2026

ClawCon202635大语言的部署瓶颈——参数量巨大•

现代大模型参数量持续增长(7B→70B→

1T)

,显存成为大模型部署的主要瓶颈•

将权重压缩至1-2bits是解决存储瓶颈的终极手段,但是面临了巨大了挑战。主流技术路线的局限北京大学数据结构实验室QAT

(量化感知训练)如

i

Fairy

BitNet

b1.58

。虽然效果好,但通常需要从头预训练

(Pre-train

fromscratch),无法复用

QwenLLaMA等现有权重,成本极高。ClawCon2026ClawCon2背景:

大模型部署的局限与大模型压缩PTQ

(训练后量化)在

≤2

bits

时精度严重崩塌(如GPTQ,

QuIP#)

。有限的码本无法拟合长尾分布,导致PTQ方法在1-2bit范围内表现欠佳。2026

ClawCon2026

ClawCwCon2026

ClawCon202636北京大学数据结构实验室信息密度对比复数

2-bit

(iFairy):

1,

±푖

}=4个状态

。log24

=

2bits无比特浪费

(ZeroWaste)实数三值

(BitNet):|{−1,

0,1}|=3

个状态,

log23

1.58

bits

。空间利用率仅

79%。复数权重引入了额外的自由度(幅度和相位)

,提供了更强的表达能力

。ClawCon2026ClawCon22

bit

Code

book:{±1,

±

푖}2026

ClawCon2026

ClawC机遇:

复数域的独特优势wCon2026

ClawCon202637北京大学数据结构实验室i

Fairy

虽然证明了复数

LLM

的潜力但要求Trainingfrom

Scratch

(从头训练)这意味着•无法高效复用LLaMA-2/3,

Qwen

等开源基座模型;•

训练成本极高(完整的预训练流程需要巨量算力

);•

难以在工业界快速落地。Fairy2i

的设计目标Real

Pre-trainedWeights

Complex

Quantized

Model从实数模型训练大规模2比特{±

1,

±

i}复数模型实现复用实数权重

高效复数量化

的完美结合ClawCon2026ClawCon22026

ClawCon2026

ClawC核心痛点:

i

Fairy的局限性wCon2026

ClawCon202638①

EquivalentWidely-LinearTransform②

Phase-Aware

Quantwith

2bit

Code

book③

Recursive

Residual

Quantization创新点1:

无损转化基于广义线性表示,保证实数模型到复数的无损转换创新点2:

高效性从实数模型出发进行量化感知训练,快速恢复精度,无需从头预训练Complex

LLM(2-bitWeights)创新点3:

残差量化对量化误差进行多次递归量化提高精度北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCFairy2i框架核心wCon2026

ClawCon2026(Pre-trained)Real

LLM39北京大学数据结构实验室从实数模型到复数模型Fromcomplex-valuedLLMstoequivalentreal-valuedLLMsClawCon2026ClawCon2PART022026

ClawCon2026

ClawCwCon2026

ClawCon202640对实数输入输出进行stack,可证明等价对R进行重参数化处理Re푼

=

(R11

+

R22)/2

|m푼

=

(R21

__

R12)/2

ReW

=

(R11

__

R22)/2

|mW

=

(R12

+

R21)/2广义复线性层푼

=

Re푼+

.

|m푼W

=

ReW+

.

|mWY

=

푼X+

Wx为了实现从实数模型到复数模型的无损转换,

引入共轭线性项,

构造广义复线性层Y

=

푼X+

W

x

(푼,W

ℂm×n

)北京大学数据结构实验室ClawCon2026ClawCon2给定实数模型,考虑任一实线性层

R2026

ClawCon2026

ClawC从实数模型到复数模型可将R写成分块矩阵R

=

[

]输入维度为奇数时Padding补成偶数2112RR2111RRwCon2026

ClawCon202641北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon202642北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCLLM解释wCon2026

ClawCon202643北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026LLM解释443.关键性质:

运算等价北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026LLM解释北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026LLM解释46北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026LLM解释47北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCLLM解释wCon2026

ClawCon202648北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCLLM解释wCon2026

ClawCon202649北京大学数据结构实验室广义复线性层的兼容性优势前向传播等价:

初始化时,复数模型输出与原实数模型完全一致。FlashAttention兼容:

可展开为实数

操作,复用

CUDA

内核。ClawCon2026ClawCon2从实数模型到复数模型1.

线性投影层对

Q,

K,V,

O

FFN

中所有层应用变换输入维度为奇数时,

Padding补齐2.

自注意力使用厄米特内积的实部角标(.)H代表共轭转置2026

ClawCon2026

ClawCwCon2026

ClawCon202650北京大学数据结构实验室Quantizationaware

training量化感知训练ClawCon2026ClawCon2PART032026

ClawCon2026

ClawCwCon2026

ClawCon202651相位量化

PhaseQuant

再将实数线性层R转化为广义复线性层(U,W)之后复用iFairy使用的相位量化算法,将每一个复参数量化到{±1,±i}北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon202652相位量化

PhaseQuant

再将实数线性层R转化为广义复线性层(푼,

W)之后复用iFairy使用的相位量化算法,将每一个复参数量化到{±1,±푖

}北京大学数据广义复线性层(푼,

W)共有2mn个复数参数每个参数量化占用2bit总存储开销为2×2m푛=4m푛每个实数参数等效1bit量化原始的实线性层R参数量为2푛×2m=4mn2*2方块,

4个参数,

变身2个复数,

4个比特,

所以是1比特量化结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon202653高斯优化

(Gauss's

o3ri

h实m数)乘法k1

=

c

×

(a

+푏)k2

=

a

×

(푑−c)k3

=

×

(c

+푑)푅e

=

k1−k3,

퐼m

=

k1+k2矩阵乘减少

25%,

显著提升训练速度北京大学数据结构实验室ClawCon2026ClawCon2标准复数乘法(a+푏푖)(c+푑푖)

需要

4

次实数乘法2026

ClawCon2026

ClawC训练加速:

高斯优化Re

=

ac

−푏푑Im

=

a푑+

푏cwCon2026

ClawCon202654残差量化北京大学数据结构实验室ResidualerrorquantizationClawCon2026ClawCon2PART042026

ClawCon2026

ClawCwCon2026

ClawCon202655W原始全精度参数W(t)第t

轮量化参数(t)

(t)sre

,

sim第t

轮scalingfactorWq最终量化参数北京大学数据结构实验室第t

轮残差每一项

W(t)

都是来自{±1,±푖

}的低比特权重ClawCon2026ClawCon2动机单次量化误差较大,

Fairy2i的原始版本,

每个参数只有1bit与其增加码本,

导致存储不可控,

不如多轮量化残差2026

ClawCon2026

ClawC残差量化wCon2026

ClawCon2026푅

(t)56W原始全精度参数W(t)第t轮量化参数(t)

(t)sre

,

sim第t轮scalingfactorWq最终量化参数北京大学数据结构实验室第t轮残差T=

1,

即为原始Fairy2iT增加1,

每权重存储+1bit对于任意T,

参数占用为T

bit每参数ClawCon2026ClawCon2动机单次量化误差较大,

Fairy2i的原始版本,

每个参数只有1bit与其增加码本,

导致存储不可控,

不如多轮量化残差2026

ClawCon2026

ClawC残差量化wCon2026

ClawCon2026R(t)57北京大学数据结构实验室W原始全精度参数W(t)第t轮量化参数(t)

(t)sre

,

sim第t轮scalingfactorWq最终量化参数第t轮残差不同的权重可以并行推理不会显著增加推理延迟延迟增加项为求和操作的时间ClawCon2026ClawCon2动机单次量化误差较大,

Fairy2i的原始版本,

每个参数只有1bit与其增加码本,

导致存储不可控,

不如多轮量化残差2026

ClawCon2026

ClawC残差量化wCon2026

ClawCon2026R(t)58PART05Fairy2i

实现与评估北京大学数据结构实验室ImplementationandEvaluationof

Fairy2iFrameworkClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon202659Fairy2i-W1

(T

=

1)

U,

W

(复数)2

bits

1

bit配置参数形式每参数比特等效实数比特北京大学数据结构实验室对比基线●

FP16:

原始全精度●

PTQ:

GPTQ,

QuIP#,AQLM●

QAT:

BitNet

(1bit/1.58bit)模型与数据●模型:

LLaMA-2

7B

(Pre-trained)●数据:

Red

Pajama

(30B

tokens)●指标:

PPL

(C4),

Zero-shotAccuracyClawCon2026ClawCon2Fairy2i-W2

(T

=2)

U,

W

(复数)2

bits

×

22

bits2026

ClawCon2026

ClawCFairy2i实现wCon2026

ClawCon202660•在语言建模能力(C4数据集PPL)

上,

Fairy2i-W2(2-bit)取得了7.85的困惑度,这一数据不仅远好于PTQ方法,

且接近全精度FP16的水平

。•在下游任务(Zero-shot

Accuracy)

评测中,

Fairy2i同样表现强劲,

其平均准确率达到了62.00%,

与全精度模型接近

。北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawC实验结果wCon2026

ClawCon202661北京大学数据结构实验室消融实验●T=1

→T=2:

PPL

降低

20.76%,Task提升

19.03%●结论:递归一次(T=2)是精度与效率的最佳平衡点ClawCon2026ClawCon22026

ClawCon2026

ClawC实验结果wCon2026

ClawCon2026核心贡献●通用性:Widely-Linear

实现无损转换●

高性能:

Recursive

Residual达到SOTA●低成本:

复用实数权重,无需从头训练未来工作●算子工程:

专用

CUDA/CPU

Kernels●模型扩展:例如

LLaMA-3

70B●理论分析:

复数

Loss

Landscape北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCFairy2i总结wCon2026

ClawCon202663北京大学数据结构实验室异步事件驱动的后端Agent

运行时AsynchronousEvent-DrivenBackend

AgentRuntimeClawCon2026ClawCon2FairyClaw2026

ClawCon2026

ClawC第三部分wCon2026

ClawCon20266ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026ClawCon2026ClawCon2常见agent执行模式:

ReAct思考+执行工具实际实现时不会那么严格要求执行这种循环,通常退化为只判断本轮有无工具调用来决定是否结束循环2026

ClawCon2026

ClawCwCon2026

ClawCon2026北京大学数据结构实验室常见agent执行模式:

Plan-and-ExcuteClawCon2026ClawCon2先做计划,

然后严格按照计划构建上下文和进行执行太过复杂,

实际实现也会退化为ReAct+todo_list辅助2026

ClawCon2026

ClawCwCon2026

ClawCon2026北京大学数据结构实验室基本都是学术界的做法,

工业界就算要借鉴也是在ReAct基础上打补丁,

比如就连Plan-and-Excute都是做了工具可见性+提示词的补丁实现DAG的做法则是另一种应用场景,

比如字节的Coze,并非openclaw一样的智能助手ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026其它Formal

Skill结构化描述Skill字段严格定义程序执行

减少幻觉更少的token消耗成本低廉打工人友好PART

06FairyClaw6智能路由选择符合当前场景的Skill北京大学数据结构实验室单步推理

+总线事件发布异步事件驱动的后端Agent

运行时AsynchronousEvent-DrivenBackend

AgentRuntimeClawCon2026ClawCon2强类型中间表示易于拓展和定制2026

ClawCon2026

ClawCPlanner规划+子agent执行架构wCon2026

ClawCon2026场景挑战

&

产品定位场景挑战:

面对长连接

多会话

、高可用性和可恢复性的后端服务场景,

对系统稳定性要求极高

同时,token费用的支出已经渐渐成为了重大负担产品定位:FairyClaw

是一个可插拔

长期运行的服务端Agent

编排内核,

具有极强的可拓展性,

可做各种定制,

而非一个已经功能完备的端到端个人助手。北京大学数据结构实验室核心设计目标●提供干净

可预期的主执行路径,

降低系统复杂度●深度支持插件化扩展,

快速适配业务需求。●完全满足后台任务

多会话管理

自动化运维等复

杂场景的稳定性需求。●省token,

便宜

更少的API调用次数和更短的平均

上下文架构清晰易维护支持动态加载新技能插件,

无需重启

内核即可快速响应新的业务场景需求。Agent

执行流程逻辑可视化,

代码结构清晰,

极大地降低了系统调试与长期维护的成本。ClawCon2026ClawCon2任务高准确率提供明确的步骤引导与约束,

减少大模型的理解偏差,

确保复杂任务的执行成功率。2026

ClawCon2026

ClawC我们要解决什么?省Token

高效使用结构化指令替代大段自然语言描述,

大幅压缩上下文长度,

降低Token

消耗。wCon2026

ClawCon2026插件化灵活扩展04Markdown格式人类友好

4对AI来说是半结构化信息查询天气是一个相对简单的任务,

但是它的Skill.md有129

行700+token北京大学数据结构实验室ClawCon2026ClawCon2Skill与传统Skill对比2026

ClawCon2026

ClawCSkill重构:

Formal传统Skill.md:以openclaw的Weather为例wCon2026

ClawCon2026北京大学数据结构实验室json文件的token量减少一半以上且能更好利用前缀缓存(缓存命中的token的

价格通常为未命中token的1/10)完全结构化信息,

减少模型调用误差且利用模型原生工具调用能力+

系统执行

weather.pyweather.py

文件内容不喂给模型,

即不消耗tokenPython脚本执行的结果确定且可重复

、可定制

、可观测

、可追溯ClawCon2026ClawCon2Skill与传统Skill对比2026

ClawCon2026

ClawCFormalSkill:Skill重构:

FormalwCon2026

ClawCon20264Token

消耗关键公式Token消耗总量

=平均单次上下文长度*API调用次数北京大学数据结构实验室ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论