分布式存储赛道的现状与挑战
01. 中心化存储遭遇的问题和挑战
我们的社会正在经历着前所未有的信息大爆炸时代,计算机、智能设备、电视、家居安全系统、可穿戴设备、汽车、甚至机器人都在时时刻刻都在产生和使用着数据,这些数据正呈指数级增长,将要来临的 AI 和物联网(IoT)时代也在不断的挑战着当前的数据存储的边界。
根据 Gartner 的调查,到今年年底,全球将会有超过 200 亿台联网设备,庞大的设备群会产生不断在产生海量的数据,海量的数据对于当前数据存储体系提出了更高的要求,包括数据存储、管理、检索。
当前的中心化云存储就是将储存资源放到云上供人存取的一种存储方案,而这种中心化云存储的方式更加将数据集中化,涉及的数据量也更大,海量的数据集中化存储极易受攻击,对于数据的隐私性、安全性、和持续性都出现了前所未有的巨大风险。
1.1 隐私性和数据所有权的问题
对于当前的中心化存储而言,用户的敏感数据全部上传,不但让用户失去了对自己数据的掌控权,而且还将数据泄漏的风险放在云存储运营商一侧。有两类数据对这一问题极为敏感:第一类是企业自身敏感信息,如企业战略规划、财务信息、投资融资决策、产购销策略、大客户资料、经营分析报告等,这些信息不为公众所知悉,能为企业带来经济利益,具有实用性,包括经营信息和技术信息;第二类是用户的个人信息,随着中心化云存储的快速发展,业务生产系统积累了大量包含用户姓名、身份证件号码、住址、电话号码、账号等敏感信息的数据,如果这些数据发生泄露、损坏,不仅会给泄漏者本身带来一定的困扰,数据集中化的中心化存储甚至会引起群体不稳定性事件,这都不利于当前高速发展的大数据时代的发展和到来。
1.2 数据的稳定性
数据的安全包含两层含义,一层是「可以保证数据的完整不丢失」;另一层是「可以保证数据隐私不泄漏」。现在的云存储市场竞争也非常激烈,由于用户数的上升,为了保证良好的用户体验,导致服务商成本上升,暂时也没有很好的盈利手段,因此近年来服务商跑路或是停止服务的新闻屡见不鲜,用户却无法对服务商的行为有任何约束和索赔的行为。这就造成用户往往倾向于将数据存储在规模更大,更有信用的服务商处,数据集中化程度越来越高,这也给数据一旦丢失将存在大面积丢失的情况。
1.3 数据存储的可持续性
在未来的 Web3.0 构架下,大量的智能设备接入网络,并会实时产生海量数据,数据量的增长将会是指数级别的,在这种情况下中心化的数据存储显然不能满足网络存储的需求,这一点在未来的无人驾驶和物联网(IoT)领域显现的会尤其明显,未来数据存储系统不仅要做到数据的存储、共享、读取,还要做到高效、准确的数据传输和分析,这对中心化的数据存储结构提出了极大的挑战。
这些都是目前中心化云存储服务提供商所面临的困境。
因此存储技术的发展即便是到了今天的地步仍然面临巨大的挑战。而这些问题都和人为因素及中心化的运营及管理密切相关。想要彻底解决这些问题,必须从去中心化的角度入手。于是业界便把目光投向了区块链技术。基于区块链技术的去中心化存储方案便应运而生。
02. 去中心化存储的意义
中心化存储所面临的挑战就是去中心化存储迎来的机遇。
去中心化存储将结合区块链技术的最佳功能,满足海量数据存储的需求,顾名思义,去中心化存储将数据分布到多个网络节点,这和区块链的分布式账本类似。
当前,单系统和云存储都是高度中心化,相对来说,这容易遭受黑客的攻击。即使不考虑黑客攻击,也存在很多明显的缺点,比如断电。相比中心化存储,去中心化存储不会碰到这些问题。因为它利用了异地分布的区域性或全球性节点。
当我们重新思考将区块链的思维和结构应用到去中心化存储的解决方案中,为当下的数据存储开辟出了一条更优的路径。
2.1 适应非结构化数据,边缘数据的存储
随着图片和视频应用的大规模兴起,非结构化数据(Unstructured Data)的概念随处可见。很多人简单理解为,传统的关系数据库里存放的内容就是结构化数据,而图片、音频、视频、文档等以普通文件形式存放的数据,就是非结构化数据。据 IDC 报告,未来的数据,75% 的数据增量都是非结构化的边缘数据。
不同于集中式云存储服务,分布式存储可以将数据存储从远距离的云服务器端,迁移到离数据更近的边缘存储设备或边缘数据中心就近存储,具有更低的网络通信开销、交互延迟和带宽成本,更高的自适应能力与可扩展性。
这样的存储方式也更加适合当下以及未来的数据存储结构。
2.2 数据的的所有权归还数据的产生者
随着互联网的发展,我们每个人都在互联网上留痕,产生大量的数据,当个人不再能够控制自己的数据,比如数据是如何使用和收集的时候,问题就出现了,尤其是在某些情况下,在用户不知情的情况下,将用户数据被一些企业用来获利,或者要求用户提供超出要求的更多个人信息。
而区块链技术已经在加密货币领域取得了成功,并且证明了可以通过其安全性、效率和非中央集权控制的方式,实现一种民主化的数据管理方式,并将所有权重新归还到用户手中,就是基于区块链技术的分布式存储技术。
2.3 契合数据大爆炸的可持续发展趋势
我们前面已经分析过当代社会已经进入数据大爆炸的时代,海量的数据正在以指数级的方式扩增,随着物联网、人工智能、云计算等技术的成熟,将会使这一趋势再次加强。
大数据是一种海量、高增长率、多样化的信息资产,需要新的处理模式,以获得更强的决策能力、洞察力和过程优化能力。大数据需要处理数量大、存储速度快的存储,这就要求底层硬件体系结构和文件系统可以灵活地扩展存储容量。
分布式存储更能适应这种高速膨胀的数据结构,分布式存储本质上是一个分散的分布式分类账。块链技术作为一种不断增长的链数据结构,通过网络中的多个节点参与数据的计算和记录,并验证其信息的有效性。从这个角度来看,区块链技术也是一种特定的数据库技术。由于分散数据库的安全性和便利性,许多业内人士对其发展持乐观态度,认为它是对现有 Internet 技术的一种升级和补充。
下一代互联网的数据结构一定是非结构数据占大多数,边缘化数据占大多数,这样的数据结构下只能选择去中心化的存储协议。
去中心化存储显然是下一代互联网的重要支撑,去中心化的存储协议才能真正实现我们未来的「云端互联网」,未来所有 APP 应用甚至游戏都是构建在分布式的云端网络,端测设备只是收集数据,不再承担计算和存储的作用。本地存储会不断弱化,边缘的去中心化存储会逐渐取代端测数据存储才能真正构成我想象中的去中心化互联网的未来。
当人们畅想的 Web3.0 既能够记住所有人的数据,也可以遗忘。它是一个安全的互联网,不会被人攻击,数据所有权可以归属于产生它的用户;在分布式存储协议下,可以是一个网络商城,也可以是一个公开的言论广场,将整个互联网交还给所有互联网使用者,而不是被几个互联网巨头掌控。
03. 去中心化存储项目案例简析
3.1 代表性项目
目前已经公开的去中心化存储项目中,不管是技术还是实现形式很多都相互重叠,各有特点,没有一个非常明晰的划分。
按实现逻辑来大致划分,可以将 BitTorrent、Filecoin、Arweave、Crust 为代表的项目分为基于内容寻址的文件共享网络的激励层,而以 Sia、Storj、MaidSafe 为代表的项目则更加偏向于通过激励通证分享自己的硬盘空间,其中还可以通过是否构建在自己的独立公链来做二级细分,比如 Filecoin、Arweave 就是基于自己的公链,而 Crust 则基于波卡(Polkadot)公链。
BitTorrent 是最早的去中心化存储项目,但是因其缺乏可以盈利的商业模式,直到 2019 年 Tron 波场收购其并推出 BTT 激励代币,但目前看来基于 Tron-10 的 BTT 最终也是「名大于实」;Filecoin 则是去中心化项目中融资额度最大的,累积融资额高达 2.57 亿美元,通过出块奖励、手续费和服务费等方式激励点对点存储,并通过优化的 Kademelia 算法匹配存储的供应和需求;波卡公链 Crust 同时也适配 IPFS 在内的多种储存协议;Storj 和 Sia 更倾向于提供电子网盘,不要求实际存储,只要提供存储空间就可以挖矿,并不具有实际使用价值;Sia 则是通过内置智能合约的方式为 P2P 存储网络中不同的节点提供协商和沟通的空间。
下面我们对现有的分布式存储项目做了一个概括和对比:
3.2. BitTorrent——去中心化存储路线的雏形
BitTorrent 简称 BT,是一种开源的内容分发协议,由布拉姆科恩于 2003 年自主开发。它采用高效的软件分发系统和点对点技术共享大体积文件(如一部电影或电视节目),并使每个用户像网络重新分配结点那样提供上传服务。常用的应用软件包括 BitTorrent、μTorrent 等。
BitTorrent 的工作原理与一般的去中心化存储协议无差异,将文件进行切片处理,再将每个 Piece 分割成多个大小为 64-512KB 的块,每块生成一个哈希字符串,然后利用 SHA-1 算法加密后分发给该文件或文件集的共享网络(Swarm)中的各个节点。具有完整文件的对等节点为种子节点,其他为非种子节点。然后,共享网络中的所有节点相互传输文件资源,让更多的节点变成种子节点,并且通过 Opitimistic Unchoked 算法选出 2 个共享网络外的节点,以扩大共享网络。
虽然 BitTorrent 是最早的去中心化存储项目,但因其缺乏完善的激励机制,因而只能称之为去中心化存储模式的雏形,基于 TRON 波长的 BTT 代币也只是借了 BitTorrent 的故事,并没有真正为 BitTorrent 赋能。
3.3 Filecoin(IPFS 官方协议激励层)——去中心化存储项目的龙头项目
Filecoin 是基于 IPFS(InterPlanetary File System) 协议的激励机制及公链系统,IPFS 协议定义了文件在分布式系统中如何存储、检索和传输,能永久、去中心化保存和共享文件,这是一种内容可寻址、点对点分布式协议。
IPFS 想在 BitTorrent 的基础上,打造真正的点对点、去中心化的文件存储系统。在 IPFS 中,所有的文件都会集中起来,其中会有通用的语言,并且所有的用户都会在整个系统中共享,这可以让他们寻找并且互相转移文件。
Filecoin 是 IPFS 官方协议实验室推出的激励代币,用于激励 Filecoin 网络中存储及检索市场各个角色的行为。Filecoin 的技术难点是数据持有证明、防止作弊和攻击、零知识证明。
IPFS 包含了通信协议和分布式系统的几个创新,它们的组合产生了与众不同的文件系统。因此,为了理解 IPFS 所要尝试达到的广度和深度,重要的是,理解使其变得可能的技术突破和所有它在尝试解决的问题。
IPFS 所应用的场景已高达 100 多个。不仅是京东、华为在布局 IPFS,微软、谷歌、火狐等也加入了 IPFS 应用,从这方面可以显示出 IPFS 的发展迅速。未来,无论文字、图片,还是视频,各种用户想要存储的内容,都有可能通过 IPFS 来实现。
3.4 Crust——基于波卡生态的 IPFS 兼容分布式存储项目
Crust Network 是一个去中心化云服务的应用型公链的激励层,这一点上类似 Filecoin 作为 IPFS 的分布式存储激励层,为了方便理解可以一定程度上认为 Crust 是波卡网络上的 Filecoin。Crust 是一个基于波卡平行链构造的分布云的激励层协议,适配包括 IPFS 在内的多种存储协议,当前阶段专注于解决存储的问题,这方面也和 Filecoin 有着相似的愿景。
Crust 作为分布式存储赛道的波卡重点项目一直以来受到了来自加密社区、投资机构、波卡生态等多方面的关注。作为 Web3.0 的基石 Crust 的发展受到了 Parity 和 Web3 Foundation 管理层的高度关注,其不但是 Substrate Builders Program 、Web3 Foundation Grant 的服务合作对象、也是万向区块链 Web3 基金会成立的 Web3.0 Bootcamp 的核心成员之一。
作为深耕技术的波卡生态项目,Crust 有别于其他分布式存储项目的黑科技是其率先使用了硬件方案即 TEE(可信执行环境)技术作为核心方案,在本地 CPU 硬件内来量化和验证节点的实际工作量。优点是速度快、技术成熟、通用性高,是主流的物联网无线通信芯片类别之一,但安全性上较为依赖硬件厂商。
基于 TEE 可信执行环境技术,Crust 提出了 MPoW(Meaningful Proof of Work)译为有意义的工作量证明机制, 来统计节点的存储工作量并报告到链上。同时 Crust 团队又独创了一种以存储资源定义额度的 PoS 共识算法,叫 GPoS(Guaranteed Proof of Stake)工作量报告连同其它交易一起记录并打包到区块中计算一个 Staking 额度,再根据这个额度,进行 PoS 共识。
3.5 Storj——基于以太坊的分布式云存储项目
Storj 是一个基于以太坊的分布式云存储协议,由盈利性公司 Stroj Labs 开发。Storj 的核心技术是一个可执行的、点对点存储合约,即两个人(或计算机)在不认识对方的情况下,同意使用定量的存储来获得收益。
Storj 的核心技术是可执行的、点对点的存储合约。它是两个人(或两台计算机)同意在不知道对方的情况下,用钱交换一定数量的存储空间的方式。我们把出售空间的计算机称为「farmer」,而把购买空间的计算机称为「renter」。Renter 和 farmer 会面,协商一个合约,把数据从 renter 那里移到 farmer 那里进行保管。
Storj Labs 公司的营利性方面是:它向数千名用户出租网络,并为网络使用收费。这是一个稍微集中的模式,与 Dropbox 和 Google Drive 等竞争。他们还与 Microsoft Azure 建立了合作伙伴关系,以部署他们的一些开发工具。
3.6 Swarm——以太坊网络上的存储服务商
Swarm 也基于以太坊,它提供分布式的存储平台和内容分发服务,参与者能够有效的汇集存储和带宽资源,以便向网络所有的参与者提供服务,同时作为回报,他们会得到一部分以太坊奖励。
Swarm 是分布式存储平台和内容分发服务,是以太坊 web3 栈的本地基础层服务。Swarm 的主要目标是提供充分分散和冗余存储的以太坊公共记录,尤其是存储和分发 DApp 的代码和数据以及区块链数据。从经济角度来看,它允许参与者有效汇集他们的存储容量和带宽资源,以给网络的所有参与者提供这些服务,同时接受以太坊的激励。
从终端角度来看,在 Swarm 中除了上传操作不是发生在特定服务器上外,Swarm 与互联网并没有多少不同。
3.7 Sia——基于独立公链的分布式存储项目
Siacoin 基于独立的 Sia 公链,用于解决存储租户和供应商之间达成了协议。
Sia 是一个基于区块链的去中心化云存储平台,由 Nebulous 公司负责开发与运营。Sia 将数据拆分、加密,然后通过其去中心化的网络对拆分和加密的数据进行分发。
Sia 通过允许用户「出租」他们未使用的硬盘空间,这样能够显著降低用户云存储的开销成本,因此很多人把 Sia 称为硬盘驱动的 Airbnb。Sia 是完全私密的,没有私钥无法查看数据文件。
3.8 Arweave——主打数据永久储存的非 IPFS 官方的激励层
与 IPFS 主打的去中心化存储、Crust 主打的去中心化云服务不同,Arweave 主打永久存储。Arwaeve 重点解决的在于当前互联网的言论自由受限、过度审查、易于篡改的问题,打造出一次性付费并获得永久文件存储的协议。提供了名为 Permaweb 永久网络的存储解决方案,利用区块链不可篡改的特性,直接把内容写入区块进行存储。
Arweave 的主网已于 2018 年 6 月上线。该项目利用访问证明(Proof of Access, POA)激励矿工永远储存历史并根据要求分享,矿工在获得新的区块奖励的同时,同时也会因存储链中随机的旧区块而获得奖励。Arweave 的挖矿采用了 RadomX 的算法,同时在此基础上引入了区块完整率的参数。
同时,不少社区开发者也指出,Arweave 存证的应用场景较窄,目前其存储的最多的以推特上的自由主义言论截图为主。同时,Arweave 的特性是永不可篡改,加大了程序开发上的难度。
04.「存储赛道」项目成功的核心要素
纵观当前的区块链生态,区块链底层广泛被用于信任凝聚,但在实现去中心化应用的道路上又常常欠缺大量存储资源的支撑,因此我们认为去中心化存储依然属于新生阶段,是一个非常有潜力的发展方向。
我们看到一个成功的去中心化存储项目应该具备以下特征:
1)坚实的技术基础:技术的底层决定了项目的上层建筑,对于项目的共识和未来发展起着决定性的作用;
2)创新的激励机制:去中心化存储这件事在技术上可行的基础上,激励模型的设计是这个项目可以顺利起步甚至持续发展下去的核心;
3)明确的场景切入和用户定位:存储这个赛道很大,专注于某一细分领域有利于聚焦共识;
4)优秀的团队:我们看到成功的去中心化存储项目的团队大多拥有搭建去中心化存储的能力和设计通证经济模型的能力
4.1 坚实的技术基础
在文件共享方式上,去中心化存储系统文件共享方式与中心化存储截然不同,中心化存储系统的大型文件上传后,文件以整体或切片的形式存储在单一或分布式的网络或服务器上,需要及其高效的开发、运营团队来维持其运转。然而,去中心化存储必须使用分布式存储技术,初始种子节点(最初拥有完整文件资源的节点)在将大型文件进行切片处理后,使其产生多个 Pieces,每个 Piece 分别存储在不同的节点上,每个一般节点在下载单个 Piece 并上传到去中心化存储网络中让其他节点下载后成为这个 Piece 的种子节点,在多个节点完成相互共享 Piece 的过程中,实现 Piece 在除初始种子节点之外的节点共享,并不断扩大该文件共享网络中的节点数。所以,在同一时刻其他条件不变时,随着下载人数的增多,下载同一内容的速度越快。因此,去中心化存储系统弥补了中心化存储系统传输速度慢的缺陷,同时克服了单点故障并保证了数据的安全性。
IPFS 是中心化存储领域的开创者,从 2014 年上线开始,如同 BT 一般自由生长,已经存储了大量数据。但是要让 IPFS 成为商业可用的存储系统,而不是随意的数据分享平台,必须提供服务质量保障。这就是 Filecoin 要解决的问题,即 IPFS 的经济激励层。
Filecoin 协议构建了两个市场:数据存储市场和数据提取市场。有存储需求的用户到数据存储市场申明自己的需求:我要存 XX 大小的数据,要求 XX 个副本,存储 XX 天。市场中的存储服务商(存储矿工)对这项存储需求报价,用户接受报价就跟矿工签订合同,支付费用。当用户需要使用数据时,就到数据提取市场提出需求;再由提取矿工给出报价,满足数据访问需求。
上述过程看上去不算复杂,实现起来却有几个困难:
矿工需要提供存储了用户数据的不可伪造的密码学证明;在合同有效期内,协议要持续检查矿工如约保存了数据。如果违约,矿工要遭受罚款;为了鼓励矿工存储数据,要让已存储数据的容量比空闲的容量赚取的更多增发奖励。同时需要防止矿工注水垃圾数据骗取增发奖励。
Filecoin 设计了复制证明(PoRe)解决第 1 个问题,采用时空证明(PoTS)和质押机制解决问题 2。通过精密地调校经济模型,并引入对真实用户的认证,来解决第 3 个问题。
同时,Filecoin 作为一种加密资产,价格会与加密市场总体行情高度关联,即波动性很高。如果 Filecoin 价格暴跌,矿工可能认赔离场,造成用户数据丢失。此外大幅度的价格波动还增加矿工质押 Filecoin 的隐含期权成本。
这其中复杂的博弈都涉及到我们下一节要讲的激励模型设计。
4.2 创新的激励机制
去中心化存储这件事在技术上基本可行的基础上,去中心化存储激励机制的设计就成为了项目成功与否的关键,信任共识设计才是去中心化存储的核心,而共识背后的经济模型才是项目的灵魂和精髓。
因为存储这件事需要有存储的硬件服务器参与,所以去中心化存储项目的矿工有很强的产业属性,和比特币的矿工不太一样,不仅仅具有金融属性,不单单是挖一个币而已,他们有很多数据存储的需求方,而如何通过激励通证盘活整个生态就更加考验初始项目团队的经济模型设计能力。
「存储挖矿设计」本质是要解决增量的系统通证「发给谁?」、「发多少?」、「以什么为评判标准?」这些问题,通过对于生态参与者和维持者的激励让系统进入到一个自运转的分布式系统。
另一方面,代币最初并没有价值,通过挖矿,最终完成价值的锚定和捕获,让代币变得稀缺和「有获取成本」。例如,POW 机制的框架下,矿工通过投资算力和运维,换取区块奖励并在二级市场参与交易,从而有了「关机价格」的概念。
在由于产业硬件的加持,存储赛道的通证通过存储这个「动作」,矿工通过投资存储设备和存储服务,换取区块奖励,实现了与现实商业社会的价值锚定和捕获。
例如,Crust 项目在经济模型中将矿工可以存储的上限容量和矿工持有的 CRU(或者担保商提供的 CRU)相绑定,矿工质押的 CRU 将决定矿工的挖矿收益上限;在原有的 PoS 模型中进化出了 GPoS(Guaranteed Proof of Stake)共识。
Last updated