作者:Bec
修订:Evelyn
什么是 Data Availability
大家都知道,区块链技术的一个特点就是:存放在链上的数据是安全可靠的,不可篡改的。那数据可用性是指的什么呢?难道区块链的共识不能保证数据的安全了吗?显然不是,区块链数据的安全性,是大家都认可的,也是区块链一直持续发展的一个动力之一。那么 DA(数据可用性)层是什么,我们先来看看下面几种情况。
一个节点如果想验证某一笔交易或者某一个区块,这个节点需要下载所有的区块和交易数据。由于区块链的持续运行,区块和交易数据会持续增长,这个节点的成本也会越来越高。以至于越来越多的节点(特别是个人用户)只能选择运行轻节点。这些轻节点,没有下载所有的交易数据,它们不能对交易和区块进行验证,只能相信它们选择的共识节点(全节点)。因此,实际上这些轻节点是不知道获得的数据是否可用。
同时区块链网络为了提高效率,一直在尝试进行扩容。以太坊的 L2 就是以太坊的一种扩容方案,从而提高以太坊的吞吐量。但 L1 和 L2 在本质上还是两个网络,L1 是不会参与 L2 的共识,也不会验证和执行 L2 的交易,同理 L2 也不会参与L1的共识,亦不会验证和执行 L1 的交易。但是在此时,L1 与L2 之间其实是有信任问题的,例如:Rollup 要求将所有交易数据都记录到以太坊的交易中,那么 Rollup 的用户为了验证自己的交易是否存入以太坊,他还需要运行一个以太坊的全节点吗?
从目前区块链的工作机制当中我们可以知道,当一个节点不参与共识的时候,特别是没有存储所有交易数据的时候,对于它自己获得的数据是否有效它是无法验证的,这些节点目前都只能相信自己连接的共识节点不会欺骗自己,或者多连接几个共识节点,做一个小小的容错。
因此DA层解决的问题是,在不参与共识、以及不用存储所有交易数据的情况下,依然能够对交易进行验证,从而证明这个交易是否可用。
Celestia
在上面先介绍了什么是 DA,接下来,我们再来看看 Celestia 项目是打算如何来解决这个问题的。
Celestia 项目围绕二维 Reed-Solomon 纠删码,设计了一套随机抽样来验证数据、以及恢复数据的方案从而确保数据可用。
当一个全节点发现轻节点收到有问题的数据时,会构建一个欺诈证明并发送给这个轻节点,轻节点收到欺诈证明之后,从网络中通过随机抽样的方式,获得需要的数据,来验证这个欺诈证明是否有效,从而能够明确的知道自己之前获得的数据是否可用。轻节点不需要信任给自己发送数据的节点,也不需要信任给自己发送欺诈证明的节点,这是因为轻节点是通过随机抽样的方式,来获取进行此次验证所需要的数据,因此安全性能是由整个网络来提供的。这样也使得 DA 层的安全等级,能够接近共识层的安全等级。
接下来,我们来了解一下 Celestia 具体是如何工作的。由于 Celestia 项目还处于开发测试阶段,因此这里采用的都是现阶段的白皮书的介绍方案,可能会与实际的解决方案有出入。接下来,我们来了解一下Celestia具体是如何工作的。由于Celestia项目还处于开发测试阶段,因此这里采用的都是现阶段的白皮书的介绍方案,可能会与实际的解决方案有出入。
准备
欺诈证明的验证,必须是高效的,并且不需要全部的交易数据,也不需要执行具体的交易,因此Celestia对于自己区块的数据,进行了一些扩展。
1. stateRoot
状态的稀疏默克尔树的根,这种默克尔树的叶节点,是一个 key-value 对。
定义了一种变量,状态见证(w)
:是一些 key-value 对,以及他们在默克尔树中的证明,组成的集合:
定义了一个函数,rootTransition :可以通过状态根、交易、以及这些交易的状态见证,转换得到交易执行后的状态的根。也就是每个交易执行后的状态的默克尔根 stateRoot`可以通过 rootTransition(stateRoot, t, w)得到:
2. dataRoot
将交易,以及这些交易执行的中间状态根,组合成一个固定大小与固定格式的shares
。这些所有的交易的shares
,按照二维RS纠删码,进行扩展,最后得到一个默克尔树的根,即dataRoot
。
- 具体步骤
- 将初始的交易数据,按照
shares
的大小与格式进行封装。 - 将
shares
放入一个 k×k 的矩阵,如果数量不够,则填充补齐。 - 然后应用 RS 纠删码,按照行和列进行3次补齐,最终得到一个 2k×2k 的矩阵。
- 对这个矩阵的每一行和每一列,都构建一个默克尔树,得到 2⋅k 个行根和 2⋅k 个列根。
- 最后将这 4⋅k 个根,组成一个默克尔树,得到根 dataRoot。
- shares
shares
是 Celestia 项目定义的一个固定大小和格式的数据结构。主要内容是交易,以及执行这些交易的中间状态根。
由于没有具体规定多少交易,需要生成对应的中间状态根,项目方设定了一个Period
变量,作为最大限制周期,这个限制可以是最大多少交易之内必须生成中间状态根,也可以是多少字节,或者多少 GAS。
还定义了两个函数来帮助验证:
parseShares
函数:输入shares,得到消息m,可以是中间状态根,也可能是交易。
parsePeriod
函数:输入消息,得到前状态根,执行后状态根,以及交易列表。
- 设定的格式举例
- 固定256字节
- 0-80:开始的交易
- 81-170: 包含的交易
- 171-190:中间状态根
- 191-256:下一批开始的交易
白皮书中,介绍了两种欺诈证明,下面将分别对此进行介绍:
3. 状态转换无效的欺诈证明
这是一个针对 stateRoot
的一个欺诈证明。全节点利用dataRoot
中的 shares
,来帮助轻节点验证收到的区块头中的stateRoot
是否有效。
状态转换无效的欺诈证明的组成:
- 对应块的 blockhash
- 相关的
shares
- 这些
shares
在dataRoot
对应的默克尔树中的默克尔证明 - 这些
shares
包含的交易的状态见证
。
证明的验证:
- 验证 blockhash,确定是对于哪个区块的欺诈证明。
- 验证证明中的每个
shares
的默克尔证明是否有效。 - 通过
shares
的两个解析函数,可以正确得到对应的交易列表,以及这批交易的执行前状态根和执行后状态根。并且如果执行前状态根为空,则第一个交易一定是块的第一笔交易;同时如果执行后状态根为空,则最后一笔交易一定也是块的最后一笔交易。 - 根据 rootTransition 函数,来验证得到的两个状态根。
4. 错误生成扩展数据的欺诈证明
这是一个针对shares
在网络传播时,当一个全节点从网络中收到shares
恢复的数据,与自己的数据不匹配时,会向网络回应欺诈证明。
错误生成扩展数据的欺诈证明的组成:
- 错误的
shares
所在行或列的默克尔根。 - 这个行或列的默克尔根,在
dataRoot
对应的默克尔树中的默克尔证明。 - 这足够恢复这一行或列的
shares
。(大于等于k个) - 每个
shares
在dataRoot
对应的默克尔树中的默克尔证明。
证明的验证:
- 验证 blockhash,确定是对于哪个区块的欺诈证明。
- 验证证明中行或列的默克尔根的默克尔证明是否有效。注:VerifyMerkleProof(行或列的默克尔根,行或列的默克尔根的默克尔证明,dataRoot,长度,位置索引) 其中前面2个数据是证明携带的数据,后面3个是本地(之前接收的)数据。
- 验证证明中每个
shares
的默克尔证明是否有效。注:VerifyShareMerkleProof(shares
,shares
的默克尔证明,dataRoot
,长度,位置索引) 其中dataRoot
是本地数据,另外数据都是从证明中获得。 - 通过收到的
shares
,恢复这一行或列的所有数据,并验证其默克尔根是否等于自己之前收到的对应行或列的默克尔根。
数据可用性
通过 2 维 RS 纠删码,Celestia 的轻节点通过随机抽样的方式,来获取区块数据,以及验证欺诈证明的相关数据。同时随机抽样的数据,并在网络中传播,当达到一定的数量时,也可以帮助网络恢复区块数据。下面介绍一下具体的工作流程:
- 轻节点从任意一个连接的全节点中获取一个新区块的块头,以及 2k 个行和 2k 个列的默克尔根。先用这些默克尔根与区块头中的
dataRoot
进行初步校验。如果错误则拒绝这个区块头。 - 在这个 2k×2k 的矩阵中,轻节点随机挑选一组不重复的坐标,将这些坐标发送给与自己相连的全节点们。
- 如果一个全节点拥有这些坐标所对应的所有数据,就会将这个坐标对应的
shares
,以及shares
的行或列的默克尔证明,回应给轻节点。 - 轻节点对于每一个收到的
shares
,都会验证其默克尔证明是否有效。注:VerifyMerkleProof(shares
,shares
所在行或列的默克尔证明,对应行或列的默克尔根,长度,坐标位置索引) 其中前面2个数据是证明携带的数据,后面 3 个是本地(之前接收的)数据。 - 如果一个全节点没有回应某一个坐标的
shares
,轻节点则会将自己收到的对应的shares
、以及它的默克尔证明发送给这个全节点,这个全节点也会将收到的数据转发给相连的其他全节点。 - 如果步骤 4 中的验证都没有问题,并且步骤 2 中抽样的坐标都有收到回应,同时在一个设定的时间段内没有收到关于这个区块的欺诈证明,则轻节点认为这个区块是数据可用的。