HOME
Damoclis-VM 诞生记(三)—— 虚拟机的设计与思考

作者:杨奕辉 创新平台实验室

项目参与者: 杨奕辉 强宇周 丁天宇

Damoclis-VM是创新平台实验室的旗舰项目Damoclis的子项目,是对智能合约和虚拟机的设计与实现。整个过程充满未知与挑战,我们从零开始调研,到合约语言和虚拟机方案的选型,到env api的设计和虚拟机实现,最后形成一个MVP。收获良多,也对区块链及智能合约的理解更为深刻,因此有必要为它写一系列文章,记录一下它的诞生。

《Damoclis-VM 诞生记》系列总共包含三篇:

  • 《Damoclis-VM 诞生记(一)—— 关于智能合约的设计与思考》
  • 《Damoclis-VM 诞生记(二)—— 字节码的选型与WebAssembly》
  • 《Damoclis-VM 诞生记(三)—— 虚拟机的设计与思考》

More than VM

智能合约虚拟机(简称VM)赋予了区块链运行去中心化应用(Dapp)的能力。它让区块链演化为“操作系统”,孕育出繁荣的Dapp生态。一款优秀的VM不仅仅是要完成确定、高效、安全地执行合约字节码的功能,它应该足够通用,能最大化节省开发者的成本,甚至能形成独立的开发者生态。

从架构上来说,VM为智能合约提供计算资源和运行容器,区块链的共识、执行模块与VM是完全解耦的。在区块链2.0项目中,我们看到大部分项目将VM作为区块链项目的一个子模块,一同编译进二进制中;Fabric更进一步,链码被编译成独立的程序,运行于独立的docker容器中,通过grpc与节点交互。如此,可将数据与逻辑彻底分离;在未来,VM可能以硬件的形式安装在“矿机”中,通过更底层的如PCIe接口与区块链进行通信。业界的Nervos CKB使用RISC-V实现VM,为演化成硬件模块做准备。

架构设计

验证层

验证层会对合约字节码及传参进行一些验证,包含ABI验证,环境检查与版本检查三个环节。

  • ABI验证:利用合约ABI对用户发送的合约调用及参数进行校验。
  • 环境检查:检查虚拟机执行环境是否符合预期
    • 检查Config字段。
    • 字节码是否合法。
      • exports是否包含applymemory,以及类型是否正确;
      • 是否包含start(被禁用);
      • 是否包含import,import的模块是否合法。
    • 解释器模块是否ready。
  • 版本检查:检查合约版本,选择对应版本的解释器。

注入层

注入层主要对合约字节码注入一些必要的代码,以及构建相应的执行上下文。

注入Gas Metering

Gas metering是用于统计每一个操作所须花费的Gas。原理非常简单:

  1. 实现Env_api方法useGas
  2. 将wasm字节码恢复成易于解析的格式化文本(如JSON)。
  3. useGas注入到格式化文本中
  4. 将格式化文本重新恢复成wasm字节码。

这里有一个值得考虑的问题:**Gas Metering能否放到编译期去做?**在编译器做Gas metering注入的好处是只须要注入一次,节省了执行时的开销。但这样的弊端也很明显:

  1. Gas Table本属于区块链协议的一部分,但却被放到合约编译器中,恶意用户只须要更改编译器的Gas Table即可完成作恶,作恶成本大大降低
  2. 若Gas Table需要修改,无法再对已部署的旧合约更新Gas Metering,导致新老合约的Gas收费标准不一致。

在每次执行时进行一次Gas Metering注入,虽然牺牲了一些执行效率,但换来了Gas灵活变更的特性,这对于不断调整、迭代的公链项目是至关重要的。一种更好的方案,是将Gas Table以合约形式部署,无须硬分叉便可更改Gas Table的参数。

注入Env_api

Env_api是区块链提供给合约层用于与区块链进行交互的接口。注入原理如下:

  1. 合约字节码(wast)中包含形如(import "damoclis" "getAddress" (func ...))的代码段。意为从damoclis模块中导入getAddress函数。
  2. damoclis模块从哪来呢?由虚拟机利用解释器的API构建原生模块,并实现预先设计的Env_api。这里的Env_api都须要用原生语言实现。
  3. 利用解释器的moduleResolver在执行代码前注入。

经以太坊基金会Go-team的gary推荐,这里隆重介绍下EVMC这个项目。它提供了一套虚拟机和客户端之间的通用交互接口。不同的VM只需要实现这些接口,即可为以太坊客户端提供交互功能。如此将客户端与虚拟机实现相互分离,更能够根据实际情况灵活切换底层虚拟机实现。

上下文构建

我们还需要给合约执行构建合理的上下文环境,提供必要的内部模块和数据以供合约使用,包括:

  • 区块链账本实例,提供区块、交易等信息的调用接口。
  • 状态数据库实例,提供状态数据的增删改查的调用接口。
  • 当前Transaction与Action的相关数据。
  • 当前区块高度和区块时间。

执行层

执行层是虚拟机的核心模块,负责执行合约字节码并返回结果。它必须具备以下几个特性:

  1. 确定性:即相同入参和上下文,无论在什么设备上运行,何时运行,运行几次,都必须获得相同结果。
  2. 高效执行:虚拟机的执行时间不大于共识算法给于交易执行的最大时间。
  3. 停机与回滚:须要有相应停机机制(Damoclis-VM中使用Gas机制)。在执行失败时须要对本次执行涉及的所有状态变更进行回滚。
  4. 沙箱环境:即保证合约与合约之间、合约与宿主系统之间的资源隔离。能够防备恶意和故障合约的不良影响。

Apply

执行合约字节码,实际是调用合约代码中的apply函数。合约上下文,包括用户指定调用的合约方法名和对应入参,通过Env_api在实际apply实现中获取,最终调用相应的合约方法。栗子详见系列第二篇。

Memory

合约除了应导出apply函数外,还须要导出memory对象。memory对象是wasm编译器在合约编译时自动注入,通常会开辟一页内存(64KB) (memory $0 1)。解释器会初始化一个线性字节数组作为内存供wasm使用,wasm与区块链数据交互是依靠内存共享的形式,通过该字节数组进行传递。(这也是为何在Env_api设计里,很多数值的传参是offsetlength的组合)

Wasm的内存数组是按照| static memory | dynamic memory |的次序划分,static memory中存放编译期的字符串或数组,dynamic memory用于运行期的数据存储,并且可以动态扩容。为了防止dynamic memory无限制地扩容,需要有合理的收费机制与内存分配上限。

AssemblyScript提供了一个额外的位于static memory之前的预留空间,称为reserved memory。这使得我们在运行期可以将一些变长数据(如字符串,数组等)以Global的形式导入wasm。这样wasm无须调用Env_api即可直接使用上下文的变量,如发送方、接收方、合约地址、当前调用的合约方法名等。

状态存储

对VM最本质的需求是对状态存储的需求,这种存储是达成共识的、不可逆的,从而实现了去中心化应用中数据的信任存储。

Ethereum1出现的状态爆炸问题给我们敲响了警钟——只收取每一次读写操作的费用,而不收取占用存储的费用,是不合理的。如果不对占用存储收费,则用户可以无限制地占用区块链的稀缺存储资源;且由于没有好的数据清理机制,区块链的状态就会不断增长,即所谓“爆炸”。

状态存储付费是很自然想到的方案。如何设计合理的状态存储付费方案,有两个底层逻辑需要考虑:

  • 用户应当为占用链上的稀缺存储资源付出成本。这里的成本是广义的,可以是代币价值、机会成本与承担额外风险等形式。
  • 状态存储的使用属性最大化,投资属性最小化。须要避免出现用户大量囤积存储资源,提高资源利用率。

EOS使用【RAM】来解决状态收费的问题。开发者须要使用代币向系统合约购买RAM,存储状态数据须要消耗对应大小的RAM资源,当数据删除时RAM资源也会相应释放,并且可以卖回给系统拿回代币。但开发者须要承担RAM和代币价值波动风险。如何对RAM定价呢?EOS创新性地引入了Bancor算法对RAM进行模拟市场定价。Bancor算法有两个特点:

  • 数字货币价格取决于存储金金额和代币流通量,真实模拟了市场供需关系;
  • 人机交易,无须对手盘,这使得“巨鲸”可轻易做多或做空,导致价格波动剧烈。

也正因为上面两个特性,EOS主网刚上线时,出现了大量RAM资源被囤积,RAM价格被瞬间拉至高位,又在随后的一周内快速下降,造成了“割开发者韭菜”的情况。

V神在2018年曾提出过使用【状态租金】来解决状态爆炸问题。状态租金很像当前云计算服务的商业模式,用户不仅花费购买占用空间大小,还须购买占用时间。对于状态租金方案的具体设计,我们仍然须要考虑以下几个问题:

  1. 用户体验:当状态出租时间快到期时,如何提醒用户续费?时间到期后状态数据是否立马清除?不同级别的数据是否有区别的对待?(云服务厂商都会提供到期后的赎回期,以防止关键数据被意外删除)
  2. 支付对象:哪些数据需要支付租金?除了合约的状态数据必然要支付租金以外,账户本身的元数据(balance, nonce等)是否也要付租金?如果需要,时间到期后清零,势必损害用户的资金安全(与区块链保护数字资产的理念相背),同时nonce为0后可能会遭受重放攻击。如果不需要,仍然无法抑制因新账户的创建而产生的状态爆炸问题。
  3. 定价:链上存储资源的稀缺程度,与区块链的生态价值及当下的市场需求密切相关。如何建立一个合理定价模型便是个非常重要的问题。

Ethereum Research中有大神对状态租金的方案进行了细化,引入了激励机制用于租赁过期的发现和确认,并且允许在状态数据删除后申请恢复。

Nervos CKB结合了状态买卖和状态租金的长处,利用原生代币代表占用全局状态的权利,且汇率恒定,即1 CKB代表1 Bytes的存储空间。同时巧妙地利用【二级发行】机制为代币持有者(存储空间占有者)设置了【通胀税】,以作为支付给矿工的状态租金。靠通胀收取租金的方式既保留了RAM方案的买断存储空间的使用模式,解决了上面所提到的用户体验的问题,又将定价转移到了通胀部分对应的法币价值,完全由二级市场进行价值发现。但这使得状态空间的上限严格等同于当前代币流通量,在初期可能会限制生态的发展。

合约安全

我们在第一篇中有提到,合约安全分为编译期安全执行期安全。本篇主要阐述执行期安全的设计思路。

执行期安全也成为运行期安全,主要由VM针对以下两方面提供保障:

  • 数据安全:不能随意篡改其他用户或其他合约的状态数据。
  • 资源安全:CPU、内存、硬盘资源的分配与回收。

数据安全

加密数字资产真正实现了人类梦寐以求的“私有财产神圣不可侵犯”,它象征着真正的自由。为了捍卫这份“自由”,数据安全是重中之重。

VM需要为以下两个方面提供安全保障:

  1. 用户数据的安全,即利用密码学算法判断是否有修改状态数据的权限。
  2. 合约状态数据的隔离,即任何合约都不能直接修改其他合约的状态数据,即使该用户拥有权限。

第一个维度很好理解,合约会提供根据用户地址和交易签名进行身份权限审查的功能(甚至可提供基于多密钥对的权限管理),以判断本次合约调用是否有权限修改相应的数据。这也是“私有财产神圣不可侵犯”的根源。

第二个维度需要特别解释一下。这里的不能直接修改其他合约的状态数据,是指不能在合约A的方法中直接修改合约B的数据。为什么?因为这会导致状态变更无法追溯,带来不确定性。我们知道,区块链环境中只能通过交易(Transaction)来触发状态变更,交易本身就是状态变更的日志。若允许在合约A中直接修改合约B的状态数据,则这次修改是并未生成相关日志的,使得状态修改无法追溯,与区块链“可追溯”的特性相违背。

以太坊中跨合约调用也是没有保留日志的。笔者认为这是因为以太坊合约是不可升级的,一旦部署后地址和代码都是不可变更的,因此可结合交易和代码具体片段来追踪状态变更记录。但以太坊并没有提供相关的索引,这导致对状态修改的记录追踪基本不可能,因此我认为这是一个设计上的重大缺陷。在EOS中,我们看到跨合约调用是生成了新的action,并被加入到原action列表中,在链上保留了状态修改的日志。

能否利用静态代码分析的方式确定跨合约的对方地址和相关合约方法,从而追溯到状态变更的细节?当然是可行的,但如果有多层调用(合约A -> 合约B -> ... -> 合约Z),这种方案显然开销是非常大的。尽管以太坊提供了tracer,可以在执行交易的过程中追踪跨合约调用的对象,但如果我想查找导致合约X某状态变更的所有历史操作,上述方案必须遍历并模拟执行所有的历史交易,显然是不可取的。

我们认为,跨合约交易正确的做法,是通过内联交易的形式调用合约B的方法从而间接修改合约B数据。即生成一个新的交易来触发目标合约的状态变更。该交易也会应放入区块中,视为由原交易生成的日志。这样可为状态变更保留操作记录,也符合“可追溯”的特征。

资源安全

智能合约通常运行在由虚拟机提供的沙箱环境,我们需要对其能够使用的资源进行适度的把控。这些资源包括三类:CPU、内存、硬盘。下面我们以QA的形式对涉及到的问题进行解答——

CPU资源

Q1: 合约运行最大能占用多少个进程,多少个线程?

一个;一个或多个。

Q2: 是否允许合约内开辟新线程?

不允许。合约不应有操作系统级别的调用,而应由虚拟机层来确定性地分配CPU资源(线程数)。

Q3:多线程下如何保证线程安全?

多线程下,不应通过加锁来保证线程安全,原因是加锁无法保证执行顺序,带来不确定性。正确的做法是在执行前通过静态分析、注解等手段对合约调用进行归类。互斥资源的调用顺序遵循交易发送的顺序;非互斥资源的合约调用可以并行执行。

Q4: 如何控制执行时间?

利用Gas机制控制合约执行时间(在本系列第一篇已提到),避免过度占用CPU时间。

Q5: 如何捕捉错误与处理?

合约执行的错误不应导致虚拟机的进程终止,虚拟机应当提供错误捕获和处理的机制。常规的做法时合约运行时的错误以error的形式抛出,虚拟机层捕获后做失败处理,包括终止交易执行、状态回滚、资源回收等。

内存资源

Q1:合约运行最大能占用多少内存?

节点能分配多大的内存给虚拟机,是由矿工决定。这本质上经济学问题:扩大内存分配无疑会增加成本,而这部分提升的执行效率能为矿工带来多少收益。若可用内存过少,部分交易执行失败,可能导致分叉;若可用内存过多,又会造成资源浪费,降低矿工收益。

Q2: 内存能否动态扩张?

可以,但须要付费。为了防止内存无限制扩张,虚拟机还应对合约的内存占用设置上限。

Q3: 如何避免内存泄漏?

不应交由合约开发者控制内存回收,虚拟机应当实现GC机制。

Q4: 如何避免内存溢出?

Wasm虚拟机中内存实则为字节数组,本身带有边界控制,能有效防止内存溢出。

硬盘资源

Q1: 单个合约最多能够存储多少数据?

这也是经济学问题,应该设置合理的硬盘占用计费。

Q2: 能否修改其他合约的持久化数据?

不能直接修改,因为这会影响到【数据安全】章节中提到的确定性。虚拟机为合约创建的上下文环境中,包含相互隔离的硬盘空间。可以通过创建新的上下文环境进行数据修改,这样的操作视为一次新的合约调用(保留日志)。

Q3: 如何防止未知的数据丢失(如磁盘损毁)?

当发生数据丢失时,节点执行合约会得到不同的状态结果,导致区块被认定为非法,区块链无法延长。这里需要区块链系统具备状态一致性的检测机制,在解决硬盘故障后采用同步主链块并重放交易的方式进行恢复。

系统合约

系统合约是指区块链系统在启动时预先部署的,可升级、可治理的合约,提供如权限控制、资源租赁、代币质押等基础服务。系统合约通常有以下三个特点:

  • 公开透明,无暗箱操作。
  • 可通过Env_api被用户合约调用。
  • 合约通过治理进行代码变更,无须硬分叉。

系统合约可采用普通合约的实现方式,并在系统预定的合约地址部署。在Damoclis-VM中,我们提供以下的系统合约:

  • 协议参数合约 - 提供一些可升级、可治理的协议相关参数。
  • 多重签名交易合约 - 提供以多重签名的形式发送交易的功能。
  • 存储空间买卖合约 - 提供状态存储的定价交易对。
  • 质押金合约 - 提供代币的质押和赎回功能,是POS共识的必要合约。

未来的优化方向

智能合约的并行执行

合约并行执行是提升智能合约执行效率的一大思路。这里的并行执行并不是指单个合约方法内部的并行,而是合约间的并行。实现合约并行执行,我们需要考虑两个重要的问题:

  1. 如何检测本次合约执行所访问的资源对象?如读写状态数据、读取账户余额等互斥操作。
  2. 如何做合约执行的合理调度?即哪些合约能够并行执行,哪些必须串行?

一种容易想到的思路是这样的:通过静态代码分析检测出合约方法可能访问到的资源,对会访问相同资源的合约调用归为同一个组。每个组的执行可以并行化,组内执行则串行化(根据交易发送顺序)。

然而,实际设计时需要考虑的因素就复杂很多:

  • 如何设计一个完备的算法,准确地检测合约方法可能访问到的资源(包括跨合约调用中的资源访问)?
  • 如何设计一个高效的调度算法,将合约调用准确分组?
  • 合约并行执行后所带来的性能提升,是否能够追回以上两个算法所带来的开销?

预言机

预言机是智能合约获取链外数据的桥梁。这些数据通常由第三方可信数据源提供,如天气数据、赛事数据、数字货币价格等。在传统的互联网应用中,我们可以简单地通过HTTP API获取到这些数据。但在智能合约却不行,原因是HTTP调用通常是异步的,时间不可预估且不具备确定性。因此,需要一个专门的基础设施来为智能合约提供这些链外数据。

预言机的设计原则中需要考虑三个要点:

  1. 获取链外数据并保证数据的真实可用。
  2. 以确定性、同步的方式被智能合约调用获取。
  3. 预言机网络本身的安全性和可用性。

隐私保护

密码学的研究推动了隐私领域的创新。隐私研究主要涉及零知识、多方计算、全同态加密等领域。

多方计算 MPC 允许一组人基于他们的输入进行联合计算,而不需要每个人显示其输入值。 例如,Alice 和 Bob 想要知道谁拥有的比特币更多,那么在不需要他们披露自己拥有多少比特币的情况下就能达到这个目的。遗憾的是,目前多方计算的局限性在于它在实践中使用效率极低。

全同态加密 Fully homomorphic encryption 则允许人们在加密的数据上计算。几十年来,这一直是密码学领域中的一个未解决的问题,直到 2009 年,斯坦福大学博士生克雷格·詹特利 Craig Gentry 使用「理想格」构建了第一个全同态加密方案。如果 Bob 想在 Alice 的数据上执行任意计算,比如训练机器学习模型,同时不必要求 Alice 显示明文数据,理想格加密方案就能派上用场。全同态加密和多方计算一样,目前仍然基本上停留在理论阶段,在实践中的使用效率太低。

推荐阅读

[1] 以太坊虚拟机(EVM)底层原理及性能缺陷

[2] 如何设计一个比Ethereum和EOS更好的虚拟机

[3] Understanding oracles

[4] EVMC

[5] 用分治思路解决区块链并行化交易问题