首页 手机兼职平台区块链正文

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

网赚之家 区块链 2020-11-25 11:30:30 6295 0

DeFiHsien-TangKaoTarunChitrGauntlet

GauntletHsien-TangKaoTarunChitraAmpleforthrebaseRAIEIP-1559THORChain使

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用 图片来自:Flickr

本年,咱们已看到了许多新呈现的 DeFi 协议,它们供给了新的机制来支撑买卖、假贷以及其他金融活动。尽管这些协议在功用和用途上差异很大,但一些原语已成为了许多新协议的通用组件。其间,常数函数做市商(CFMMs)及主动利率曲线,是两大最受欢迎的 DeFi 组件,它们呈现在许多 DeFi 产品中(例如 Uniswap 和 Compound)。跟着职业集合在这些原语周围,这就引出了一个问题:是否存在更好的挑选?

实际上,反应操控体系(Feedback control system)正是一种或许改善协议鼓励、功率及弹性的办法。

什么是反应操控?

操控理论在运用数学、电气工程及机器人学中得到了广泛的研讨。

它在许多职业都有广泛的运用,包含航空航天体系、主动驾驶车辆及物联网设备。在经典的「反应体系」教科书中,Karl Johan Åström 和 Richard M. Murray 将操控界说为在工程体系中运用算法和反应。

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

[1] 开环体系

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

[2] 闭环体系

图 [1] 和 [2] 阐明晰开环和闭环操控体系的差异。在开环体系中,操控器输出与体系输出无关。与之相反的是,闭环(反应)体系的操控器,将体系输出作为附加输入。在闭环体系中,体系动力学依赖于操控器动力学,而操控器动力学又依赖于体系动力学,这就发生了体系与操控器动力学的耦合效应。由于循环依赖性,了解反应体系是十分重要的。

反应操控与强化学习简史

份额-积分-微分(PID)操控器是最为常见的反应操控器。它运用期望体系状况与观测状况之间的差值接连核算操控信号。1922 年,俄国人 Nicolas Minorsky 为美国海军舰艇的主动操舵体系,宣布了榜首个 PID 操控器的理论剖析。20 世纪 50 时代,商用数字核算机面世,这使得最优操控理论得到敏捷开展。最优操控的首要问题,是找到一个能发生最优状况轨道,并使动态体系行为的测度最小化或最大化的操控律(control law)。Richard E.Bellman 的「最优性原理」(或贝尔曼 (Bellman) 方程)、动态规划算法及马尔可夫决议计划进程,就是在这一时代开展起来的,它们意图是为处理最优操控问题。20 世纪 80 时代末 90 时代初,在最优操控和人工智能范畴的前期作业,推进了强化学习的开展。强化学习在不完全了解体系状况的情况下,经过试错学习或逼近来处理最优操控问题。近二十年来,跟着核算和深度学习算法的开展,呈现了新一轮成功的深度强化学习算法。深度强化学习经过运用深度神经网络,扩展强化学习,而不需求显式地规划状况空间。DeepMind 运用这些算法来创立能够玩 Atari 游戏的人工署理,以及比人类做得更好的 Go。

PID 操控器

了解反应操控或 PID 操控器的直观办法,是经过一个份额操控器(P controller)

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

其间 K_p 是一个常数,在一个份额操控器中,操控输入 u(t) 与观测输出和期望体系输出之间的差错 e(t) 成份额。

这儿咱们将展现一个恒温器怎么运用反应机制来操控室温。假定当时温度为 90°F,恒温器温度设置为 70°F,则差错为 20°F。当 K_p = 0.1 千瓦 /°F 时,恒温器操控空调设备,使其运用 u(t) = 2 千瓦来冷却整个房间。

当温度下降到 80°F 时,差错减小到 10°F,空调将输出 1 千瓦的功率。从这个比方中,咱们能够看出,恒温器输出一个操控信号来改动空调器的输出功率,并下降温度。恒温器丈量温度差错,并改动输出操控信号,这种反应回路使室温逐步收敛到所需温度。

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用 PID 操控器方块图(来历:Wikipedia)

PID 操控器扩展了份额操控器的概念。除了当时差错 e(t),它还丈量累积差错 \int e(t) 及差错改动率 \frac{de(t)}{dt} 来核算操控输入:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

其间,K_pK_i 以及 K_d 都为常数。

反应操控和 DeFi

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

反应操控是一种简略而强壮的思维,它在实际国际中现已被广泛运用。在现有的运用之外,反应操控也是 DeFi 运用的重要组成部分。

假定一个协议有一个高层次的方针,该协议丈量当时状况的间隔,并运用反应机制更新协议参数,以鼓励商场参与者将体系面向期望状况。例如,安稳币协议期望将代币与 1 美元锚定,协议依据安稳币价格不断调整利率,当安稳币价格高于 1 美元时,该协议将下降利率并鼓励参与者发行更多的安稳币。不然,协议将前进利率并鼓励参与者偿还债款。经过算法调整利率,当安稳币在 1 美元左右时,商场就能够到达供需平衡。

许多 DeFi 运用现已在协议规划中隐式或显式地运用这种方式。这儿咱们将运用 Ampleforth 的 rebase 机制、RAI 的反射指数、EIP-1559 的费用商场提案及 THORChain 的鼓励钟摆机制来阐明反应操控器在不同机制中的运用。咱们还将展现反应操控怎么使链上衍生品定价成为或许

动摇性按捺财物

Ampleforth 和 RAI 创始了不相关和低动摇性加密财物的概念。乍一看,这些协议好像有不同的底层机制。AMPL 动态调整供给,以处理不适应性问题,而 RAI 则运用动态换回率机制来最小化反射指数动摇。可是,这两个协议本质上都是反应操控体系,它们旨在发明一个动摇性按捺财物。而这些协议的首要差异,在于它们运用了不同的操控输入。咱们将运用反应操控结构来展现这两种协议之间的异同。

Ampleforth Rebase 机制

AMPL 是一种依据商场价格动态调整供给的数字财物,当 AMPL 的价格高于 1 美元时,其供给量就会扩展,反之则会缩小。代币供给机制的扩张与缩短,鼓励理性的 AMPL 买卖员介入,推进 AMPL 价格向 1 美元方针跨进。

为了用公式标明 rebase 机制,咱们首先将差错界说为方针值与观测值之间的差:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

假定方针值为 1 美元,调查值为当时价格,则差错项为:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

当价格差错 e(t) 大于差错阈值 d_t 时,AMPL 的供给调整为:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

依据上面的方程,咱们能够将 rebase 标明为一个份额操控器,其间:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

操控规矩:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

从这个比方中能够看出,rebase lag 是决议体系行为的要害参数。

挑选恰当的 rebase lag 参数与调理操控器的份额增益是相同的。份额增益对体系特性的影响在操控体系中得到了广泛的研讨:高份额增益(或低 rebase lag)能够减小稳态差错,加速上升时刻,但会增加超调量(overshoot),使体系更具振动性。

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用 来历:Matlab 和 Simulink 的操控教程

RAI 反射指数

反射指数是一种动摇性低于其典当品的财物。该体系运用类似 MakerDAO 的债款典当头寸(CDP)进行财物发行。当反射指数的换回价格违背商场价格时,协议会调整换回率(换回价格的改动率),以鼓励 CDP 持有人发生更多债款或偿还未偿债款。

RAI 反射指数是在协议规划中榜首个清晰引证 PID 操控器的协议。这个反射指数中的差错项是商场价格和换回价格之间的差额:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

换回率是操控输入,并由一个份额操控器修正:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

以及

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

在上面说到的两个比方(Ampleforth 和 RAI)中,都有一个反应操控体系。这些协议以特定的参考价格为方针,但运用不同的经济机制来影响代币的供给。Ampleforth 直接改动了体系的总供给量,以鼓励参与者进行「供给发现」或「市值发现」,从而将 AMPL 价格面向 1 美元。RAI 改动了换回价格,鼓励参与者从头平衡未偿债款总额,以削减价格动摇。

EIP-1559: 以太坊费用商场更改提议

当时的以太坊费用商场运用简略的榜首价格拍卖机制来定价买卖费用。这种拍卖机制是次优的,它为竞拍人带来了相当大的开支,由于每个竞拍人都需求依据其他竞争对手的预期出价进行竞标。EIP-1559 经过一种自适应的收费机制处理了这个问题,这样收取的总费用能够超越网络的社会本钱。

拟议的买卖费用包含动态调整的根底费用(base fee)以及给矿工的额外小费(tip fee)。区块运用量是决议根底费用的首要因素:

当区块运用量高于方针运用量时,根底费用增加,反之则下降。这种费用调整算法寻求博弈论均衡并树立费用下界。这项提议或许是以太坊 1.0 最严重的改动,它将极大地改动用户体会和货币政策。

毫不古怪,EIP-1559 能够被描绘为一个反应操控问题,它的根底费用调整算法为:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

算法中的差错项为:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

根底费用调整算法也是一个份额操控器,其间:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

操控输入为:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

以及

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

THORChain 的鼓励钟摆机制

THORChain 是一个为跨链财物交流供给便当的去中心化网络,该协议要求体系的总池子本钱大于担保本钱,以保证其安全。在 THORChain 中,2:1 的本钱份额被认为是最优的体系状况。这种鼓励钟摆机制是为了使体系处于平衡状况,它将总的通货膨胀报酬和买卖费用从头分配给参与者,使体系逐步收敛到最优状况。特别是,分配给流动性供给者的体系收入份额为:

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

其间,bs 标明总的担保本钱和总的池子本钱,其余部分则给予担保人(bonder)。在最优状况下,鼓励钟摆将 33% 的体系收益分配给流动性供给者,将 66% 的体系收益分配给担保人(bonder)。假如体系只要担保本钱,鼓励钟摆会将 100% 的体系收入分配给流动性供给者。

THORChain 的鼓励钟摆运用链一个确认的公式来核算体系的收入分配。尽管它没有运用 PID 操控器的公式,可是鼓励钟摆和 PID 操控器有一个十分类似的概念:

  1. 该机制企图将差错随时刻的改动最小化,即便体系状况收敛到最优状况;
  2. 操控信号是一个差错函数,其间差错是丈量的 bonded-to-pooled 本钱和最佳 bonded-to-pooled 本钱之间的差;

链上衍生品定价

2020 年傍边最大的惊喜之一是,现货财物 DEX 能够处理和中心化买卖所相同数量级的现货买卖。

可是,最活泼的加密买卖产品——永续合约,没有完成去中心化。

尽管现在现已有了一些去中心化期货产品的测验,比方 FutureSwap 和 McDEX,但到现在,这些协议都没有完成他们的许诺。其间的一个首要原因是,比较现货买卖,期货买卖对推迟要灵敏得多。这是由于预言机价格更新需求十分敏捷,以防止抢先买卖(front running)和拖延买卖(back running)。此外,由于较低的保证金要求答应用户用较少的典当品进行大规模押注,因而流动性往往会以更快的速度在衍生品买卖场所增加和移除。可是,在不需求高流动性速度的情况下,有许多新的机制能够仿制衍生品的成果。这些办法触及主动做市商(如 Uniswap),它们具有动态曲线。在这一方向上的一个根本作业是 Alex Evans 的一个定理,其标明,假如一个 Balancer 池依据一个修正后的 PID 操控器调整其权重(如下所示),那么你能够仿制任何无杠杆报答。

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

在上面的等式中,Balancer 池的权重 w* 遵照操控方程,作为预期收益 g 的一个函数。生成恣意的衍生品收益是一个增加杠杆作用的问题 —— 假如或人能够针对付出 g(x,t) 的 Balancer 池股份进行假贷,并用借入的资金创立新的资金池份额,那他们就能够将自己的敞口杠杆化为 g 的常数倍数。而像 Aave 和 Compound 这样的链上假贷渠道,就十分合适进行这种操作。那这与永续合约买卖有什么联系?

咱们能够将永续合约产品视为一个将指数价格 p (t) 映射为正或负报答的函数。例如 Balancer 这样的常数函数做市商(CFMMs),答应将 p(t) 标明为一个数量向量,以及池的权重操控着从数量到价格的映射。因而,咱们能够将永续产品(用金融术语来说,是一个仿制出资组合)的代替结构视为一个 CFMM,其形状正在调整以坚持收益。尽管权重更新仍能够前推和后推,但要做到这一点要比操作价格要困难得多。这是由于你需求操作做市商持有的数量(上面等式中的 x)来调整收益 g。与操作价格(单一标量)不同,你有必要调整典当品数量 x(许多 LP 确定的一对现货财物)。正如咱们在 Uniswap 论文的附录 D 中所指出的,跟着确定的总值增加,这种操作会越来越困难(难度呈线性上升)。

这个比方阐明,当运用恰当的份额操控器时,当与动态调整的做市商耦合时,许多衍生品产品可存在于链上。尽管规划此类操控器的研讨尚处于起步阶段,但像 Yield、Opyn 及其他团队规划的 CFMM,这种盛行趋势现已标明,操控理论使得链上衍生品成为或许。

以太坊的核算和存储容量有限

DeFi 下一重要原语:探究反应控制在 Ampleforth 与 THORChain 等使用

在关于反应操控与强化学习的前史上,算法的前进能够说是成功的首要因素。可是,人们往往忽视了这样一个现实:核算和存储范式的改变,也导致了这些技能打破。在 20 世纪 50 时代没有商用核算机的情况下,动态规划(Dynamic programming)是处理最优操控问题的一种办法,假如没有 GPU 集群和巨大的存储空间,Deepmind 无法有效地练习用于玩 Atari 游戏的深度强化学习模型。

咱们知道,以太坊的核算和存储容量是有限的。现在,大多数的 DeFi 协议都是经过运用简略的反应算法来战胜这些约束,这些算法不需求许多的存储来盯梢前史状况的改动。因而,PID 操控器或其他稳定的空间及时刻杂乱度算法(run time 和空间需求不会跟着输入巨细的增加而增加)很合适资源受限的核算环境。

关于链上杠杆操控理论自可是然的下一步,是拟定 DeFi 协议反应机制作为一个最佳操控问题。原因有二:关于最优操控,已有许多的理论作业,并且它不依赖于巨大的核算才能。另一个或许的途径是经过协议的管理进程,在链上引进更杂乱的算法优化参数。许多中立的第三方能够在链外处理区块链数据及外部数据源,运转杂乱的算法,并提交优化的管理投票参数,以前进协议功率。

最终的主意

  1. 份额操控器是工业中最常见的操控器方式,它以电流差错为输入,较好地处理了大部分问题。为了进一步改善现有的反应体系,协议能够考虑增加「曩昔差错」(积分项)和「预期未来差错」(导数项)作为操控器的输入。
  2. 联合曲线或利率曲线是鼓励特定用户行为的机制。参数化这些曲线是十分重要的,由于规划空间很广。例如,具有不同形状的曲线,或许会取得十分类似的成果,但很难断语其间一条曲线严厉优于另一条曲线。根据联合曲线的办法存在维数灾祸(curse of dimensionality)。参数化三维或更高维曲面,好像是一项具有应战性的使命。协议开发团队能够考虑运用反应操控办法来简化规划及参数化办法。开发人员不需求规划描绘一系列参数值之间联系的整个曲线,而只需求重视参数值的「改动率」。
  3. 考虑到智能合约一般触及高风险及反应体系的动态性,规划一个根据反应操控的智能合约是一项应战。咱们知道,模仿在工业中被广泛运用于参数调试,而 Gauntlet 可协助协议规划者经过模仿许多的协议参数及商场环境来对他们的协议进行压力测验。树立一个安全高效的 DeFi 生态体系,一直是咱们的首要使命。

JohnMorrowReiChiang

medium.com

版权声明

本文仅代表作者观点,不代表网赚之家本站立场。
本文系作者授权发表,未经许可,不得转载。

评论