AI+Web3或将成为未来行业融合创新的一大突破点。Future3 Campus在与Footprint Analytics携手编撰《AI 与 Web3 数据行业融合的现状、竞争格局与未来机遇探析》研报期间,也对多位知名投资机构代表进行了采访。本文根据访谈内容整理,仅代表受访嘉宾观点,不代表 Footprint 立场。
如何看待AI+Web3数据的结合?有哪些值得关注的方向?
Hashkey Capital-Harper:我认为AI和web3数据的集合有几点:一是通过LLM模型将语言转化生成SQL,比如Dune,还有些项目专门做search engine的,要强化SQL,才能去正确调取数据库里的数据,还有利用自然语言就能自动生成SQL,让开发者复制后去使用。二是聊天对话方式,基于chatgpt改造的聊天agent,主要针对提供聊天窗口的,不那么强调在SQL和搜索优化上,它更随意点,比如请告诉我哪个KOL喊单了,这个安全事件对token的影响有什么(这个时候可能就是全网搜索出来一个结果,这里就不会强调调取数据库的SQL优化)。三是通过AI创建合适的模型将链下和链上数据进行整理,提取更好的insight。
相比之下,一需要项目方有更强的数据库搭建能力,因为Web3的数据处理起来很麻烦,不过要达到准确性和速度,这个还是很难的;二是个比较简单的结合方式,门槛也不太高。
SevenX Ventures-Yuxing:其实数据是AI的养料。Web3的数据公开且可验证,而AI的问题在于它的黑盒特性,难以验证。这两者结合,可以产生一些有趣的化学反应。目前我更倾向于把AI和Web3的结合分为两类,不是简单的AI加Web3数据,而是考虑AI如何让Web3变得更好,以及Web3如何让AI变得更好。
首先AI对于Web3数据来说,能够有效利用Web3数据公开可验证的特性。任何AI都可以使用Web3数据,提炼并产生价值,无论是投资建议还是预警分析,AI能够帮助Web3数据处理和分析增加效率。另一方面,Web3可以增加AI的可信度,因为Web3本身就是一个新型的信任机制。通过Web3的数据公开可验证的特性,可以提高AI的透明度,甚至在新闻报道或纪实等重要领域,可以用Web3的方式存储关键信息,这就能够去避免AI存在的一些问题。
而这些问题中比较常见的就是AI的造假问题,还有AI黑盒问题。AI的算法有些可能比较容易理解,但是有的算法很难解释,比如像神经网络这样复杂的算法,还有GPT,人们可能会质疑他的答案是如何产生的,它的数据和算法都不够透明,让人感觉像是魔术。例如,之前的人脸识别算法将黑人错误识别成大猩猩,这是因为其数据样本中黑人的图片太少。
如果AI模型使用的数据都是可验证的,我们就可以更容易辨别数据是否有样本偏差。使用Web3的数据,因为其透明性,整个AI模型的训练源和结果都会更加明晰。这样一来,我们就能更公正地看待AI,理解它的决策源,减少偏见和错误。
黑盒问题可以粗略分为两部分。一部分是模型算法本身的黑盒,包括模型怎么训练,内容怎么生成,不论从训练过程还是算法机制层面都存在不透明或不可解释。另一部分是数据的黑盒,不公开数据,训练集的问题也会导致最终结果偏差。
这个偏差如果说是内容准确性上的问题,我们还可以去持续改善,但如果是一些意识形态方面的问题,尤其是政治或种族歧视等方面的问题,可能就不容易纠正了。这种时候就只能去把控数据输出了,比如现在很多国家系统或国企系统的 AI 模型,它最重要的一点就是去控制它的输出,什么不能讲,这个是最难做的,这一定程度上跟刚刚的这个意识形态偏差是类似的。
Qiming Venture Partners-唐弈:对于AI和Web3数据结合方面,我个人认为,AI在这个领域可能有些许炒作,噱头大于实际效用。因为从我看来,Crypto的数据产品还处于相对早期阶段,在数据方面的基础工作还不够扎实。在这种情况下,过早地引入AI或过多的数据分析可能为时过早。
此外,从用户角度来看,大部分加密项目和AI结合的场景并不太成立,或者说用不太到AI。因为这波比较火的AI模型,特别是生成模型,是建立在大规模互联网数据的基础上的,比如语言处理和图像生成等能力。尽管有人利用生成式AI改进用户体验,提供更好的交互和对话感,但这对于大多数场景而言可能价值有限。我认为如果谈论更广泛的AI(数据分析能力或更简单的AI模型)可能还有些场景,比如基于数据给NFT进行价格估算,或者专业的交易团队可以利用数据执行一些交易操作。总体而言,对于目前这波AI浪潮,我暂时还没有看到可以为加密货币产业带来特别短期效益的机会。
当然,我也看了一些早期项目正在尝试通过AI提高数据处理或分析方面的能力。举个例子,我看到早期项目正在使用AI能力来解释智能合约的逻辑或进行分类识别等工作。这些工作在智能合约和加密货币领域要求较高的准确性,因为涉及到交易等关键动作。因此,我可以想象,使用一些AI能力来进行数据预处理可能是有意义的,但最终可能仍需要人工干预来确保准确性。如果您希望通过AI能力直接触发交易,除了专业的交易者外,我认为产品方面还需要取得很大进展。
Matrix Partners-子熹:我们观察了很多关于Web3的数据项目,比如我们投资了Footprint,起初我也是它的一个忠实用户,另外还有Dune。Footprint和Dune我觉得主要针对VC、开发者以及一些小型企业的服务,真正的普通和这些服务的联系并不大。
另外我们也看了一些与加密货币交易或者盈利直接相关的数据分析公司,像Nanson、defilama、token terminal、dappradar,当然还包括Dune和Footprint。这些公司对VC和开发者来说非常有用,但它们的盈利能力似乎有限。原因在于目前VC和开发者对这些数据的总体需求量还不够大,而且他们的付费意愿也不强,因为即便某些服务不是免费的,也总有其他公司提供类似的免费服务。
我们还看了一些类似于数据云仓的公司。我们也和腾讯领投了Chainbase。他们其实就像是一个数据平台,他们提供安全类、交易类、NFT类、DeFi类、游戏类、社交类数据,还有一些综合性的数据。开发者可以在这些平台上组合这些数据来生成自己所需的API。
在熊市中,我们注意到像Chainbase、Blocksec、footprint这样的公司,它们的很多客户实际上是中小型创业公司。例如Chainbase,它的一些大客户收入并没有下降,但是中小型客户的收入在两三个月后就降为零了。这表明这些项目因为缺乏资金而无法继续。
因此,对于数据提供商来说,熊市中若没有新的开发者加入,他们就很难赚钱。这也反映出目前在Web3领域,数据提供商主要是靠那些认为数据有用的开发者和小型企业,他们并内部整合这些数据,然后再进行变现,平衡收入和产出。
核心我们还是觉得,目前无论是ToC还是ToB的Web3数据公司盈利模式都不是很清晰,这导致数据提供商没有一个强大的稳定的现金流。尤其是对于那些中小型的创业者来说,这是我们觉得目前Web3数据行业最大的一个弊端。
然后再回到AI和Web数据结合的话题。我们最近也看了和投资了一些AI相关的数据公司。我觉得AI数据公司实际上也面临着同样的问题,就是数据的销售。你需要考虑客户的成本和他们产出的效果之间的平衡。目前来看,我对AI数据公司的盈利前景还是比较乐观的,但这主要限于海外市场。
如果只瞄准国内市场,我担心最终的结果可能会和投资Web2 SaaS公司一样,可能有收入,业务规模不会太大,客户的付费意愿也不是很强。你可能还需要提供定制服务,这样你的毛利率也不会很高。所以我对在国内做这个是比较悲观的,对在海外做这个是比较乐观的。
您认为AI 能够给Web3 数据基础设施和Web3数据公司带来哪些价值?现在利用AI帮助Web3数据的项目效果怎么样呢?在商业模式方面是否能有些创新?
SevenX Ventures:我认为AI对Web3数据最大的帮助是效率方面。比如Dune发布了AI大模型的工具来做代码异常检测和信息索引,用户可以去用自然语言去查询相应的数据,它的代码就会相应地进行生成,然后还可以去做代码的优化,这个就是效率方面的一个提升。
另外还有用AI做安全预警的项目,它就是将 AI经过相应的训练之后,可以去快速的去识别安全问题的一个 AI Robot。比如 AI 算法里边就有一个算法叫异常检测,效果比从纯数学统计的方法直接去看数据的分布,检测出一个异常值要更好,所以这种 AI 可以更有效地去做安全方面的监测。
另外我还有看到一些项目使用AI算法,比如大语言模型来检索整个Web3的新闻数据(不只是链上数据),进行信息聚合和舆情分析,形成一个AI Agent。比如用户可以直接在对话框里面去查某个代币最近30 天或者 90 天的网络舆情,用户是更偏向于看多,还是看空,给予相应的分值来体现热度;它还会有个曲线,通过这个曲线就可以判断一个代币它是在大家讨论到顶峰的时刻,还是在一个顶峰下降的时刻,还是在一个上升的时刻?这些可以辅助用户投资,我觉得也是一个挺有意思的应用方式。
但也有些其他的项目宣称自己的数据是AI的数据源蹭 AI 概念,我觉得这有点牵强,因为任何链上数据都可以是AI的数据源,因为它是公开的,所以有点蹭热点的嫌疑。
Matrix Partners-子熹:商业模式是现在数据领域的一个大问题,要找到一个解决方案很难。可能在ToC端,利用Web3的一些概念,比如token或分布式概念,可以让AI数据采用不同的商业模式。但如果是AI技术赋能数据,目前并没有太多亮点。
AI在数据处理和清洗方面可能有辅助作用,但这更多是内部的帮助,比如在产品开发过程中提升功能或用户体验。但从商业角度来说,并没有太大改变。
AI bot确实可以增加一些竞争力,辅助用户,但目前来说这不是一个很大的优势点,核心竞争力还是取决于数据源的质量。如果数据源充足,我可以获取我需要的信息。问题是,如果这些数据要商业化,那么我组合出来的东西必须能变现,我才愿意为数据支付费用。现在的问题是,市场不好,初创公司不知道如何变现数据,也没有足够的新进场初创公司。
我觉得目前有意思的反而是一些Web2的公司,它们使用了Web3的技术。比如一个合成数据的公司,他们通过大模型生成合成数据去使用,数据可以主要应用在软件测试、数据分析,以及 AI 大模型训练使用。他们在处理数据的时候涉及到很多隐私部署的问题,使用了Oasis区块链,可以有效避免了数据隐私问题。后面他们还想做一个数据交易所,将合成的数据包装在NFT里进行买卖,解决确权和隐私问题。我觉得这是一个很好的思路,它用Web3技术来辅助Web2解决问题,不一定局限于Web3的公司。不过,目前合成数据的市场还不够大,早期投资这样的公司有风险。如果下游市场做不起来,或者竞争对手太多,情况也会很尴尬。
在AI+Web3数据的领域,有没有投过一些比较好的项目,分别是什么方向的,决定投他们的关键因素是什么?您认为这类项目的核心竞争力是什么?AI是否会加强这个竞争力?
Hashkey Capital-Harper:我们投的数据项目比较早,基本都是还没有特别强调ai的时候就投了,比如space and time、0xscope、mind network、zettablock等,投的关键是看他们的定位和数据质量。现在这些项目都会有AI的计划,基本也是先从聊天agent开始。space and time和chainML合作推出了创建ai agent的基础设施,其中创建的defi agent被用于space and time,也是一种结合AI的方式。
SevenX Ventures-Yuxing:如果项目与AI的结合做得很好,那么我可能会对其更感兴趣。决定我是否会投资的关键因素之一是项目是否有市场壁垒。我观察到很多项目宣称他们与AI结合能够提升效率,例如快速的数据查询功能。有些项目可以通过自然语言查询来快速获取链上NFT数据,比如查询最近交易最活跃的十大NFT。这样的项目可能有先发优势,但市场壁垒可能并不牢固。
真正的壁垒是AI本身的应用以及工程师如何将AI应用到具体场景中。工程师如果能熟练地进行模型微调,通常能够获得良好的效果。对于那些提升效率的项目来说,市场壁垒主要在于数据源。不仅仅是链上数据,还包括项目方如何处理和解析这些数据。例如之前提到的项目,它们能够通过AI算法快速检索重要数据。然而,工程师进行模型微调的效果是有限的,真正的持续优势在于数据源的质量和其持续优化的能力。这也是为什么一些数据分析公司能够在市场中脱颖而出的原因,他们不仅提供数据源,还包括数据处理和分析的能力,区别往往在于团队的技术能力和人才。这些因素直接关系到AI结合应用的最终效果,
另外,我也关注那些能让AI变得更好的Web3技术项目,因为AI市场非常庞大。如果Web3技术能够增强AI的能力,那么应用场景将会非常广泛。这就是ZKML项目受到热捧的原因。但是,我注意到Web3项目往往容易被夸大或贬低其价值。像ZKML这样的项目,尽管备受关注,但它们的投资回报并不像人们期待的那样迅速,退出机制也并不清晰,因为它们发行代币的难度较大。因此,尽管这些项目富有创意并具有潜在价值,但是否值得现在投资,以及它们最终能带来多少回报,是投资者需要仔细考量的。
Matrix Partners-子熹:我们投资了一个结合AI和Web3的公司,它是一个数据标注公司,叫Questlab。他们使用区块链技术提供数据标注的众包服务。数据标注原本是一个直营或者是分包的行业,很难做到知识领域的全覆盖。
就传统的数据标注来说,一般分为三个类型:直营、分包和众包。但实际上做众包的人比较少。这三种模式的公司在选择数据标注服务时需要考虑的因素有:价格是否便宜、标注的质量是否高、效率如何。还有一个就是能否覆盖他们所在的行业。如果你只是做一些通用模型的语言或图片的标注,其实很简单,就是识别英文字或图片。再难一点,比如需要区分猫、狗、月亮、婴儿车等,这也不是很难。但如果你需要做的是更专业的标注,比如语音机器人社区需要的标注,那就复杂多了。他们可能需要标注各种方言和多种语言,包括中文方言,英文方言、以及各种小众地区的语言等,很少有传统的工作室愿意做这样的工作。
一个更复杂的例子是法律加AI公司,需要标注大量的法律知识来训练各种模型,要找到既懂法律又能进行专业标注的人非常难,需要同时懂得各国法律,还要了解各种专业法律领域,如合同法、租赁法、民法、刑法等。市场上几乎没有一家数据标注公司能够提供如此专业的服务。法律是专业的,金融、生物、医疗、教育等也是如此。所以,这些领域的标注工作一般只能由内部团队来完成,他们使用众包的方法,这样就能解决知识专业覆盖的问题。
我们认为,利用区块链进行众包是一个很好的方向,就像YGG在Gamefi领域做的事一样。这是我们认为是一个有前景的方向。
另外,我们觉得在开源模型社区里面,也会有一些很好的机会。比如Polychain投的一个项目是一个类似于web3 的hugging face,用来解决模型内容创造者经济的问题。
其他的AI和Web3的结合,我觉得ToC方向如果能结合一些token的玩法,提高整个社群的粘性、日活和情感,我们觉得这是可行的。这也方便投资人来变现,但是市场规模如何也不是很确定。这就是我对AI和Web3的一些看法。我觉得如果纯ToB的业务,没必要用Web3,就用Web2的方式做就挺好的。
Qiming Venture Partners-唐弈:目前我们投的有一些数据项目正在通过链上数据在安全场景中进行工作。我认为一些AI基本的模式识别或特征发现工作都有涉及,并且效果还可以。然而,更高级的工作,如将大量活动数据输入模型并识别多种信息,目前仍在尝试阶段,效果尚需验证。除了安全领域外,许多其他领域也存在类似情况。
最近的一个例子是我们投的NFTGo,它是一个基于大数据分析去做NFT的定价,具有一定的准确性,并计划将其用于价格Oracle等用途。虽然这一体系听起来很有趣,但在产品中以及用户接受程度方面,仍需要进行验证。因为即使目前可能能够达到90分或85分的准确性,用户可能需要更高水平,比如98分或95分,因此还需要进一步验证。因此,虽然一些项目正在将数据分析和模式识别等简单AI能力应用于产品中,但是否成为关键因素尚未得到验证。
而对于投资意愿方面,我个人不会因为项目有一些AI的噱头就更倾向于投资,因为我认为实际效果和项目是否能实现其目标以及带来好处更为重要。如果一个项目只是在名字或市场营销上有亮点,作为一种营销手段,以吸引更多关注或曝光,我能理解。但在投资决策中,我认为更重要的是实际效果。
像一些项目在做ZKML,这个赛道似乎备受瞩目,但是同时也有很大问题,就是它到底用于什么场景。我觉得目前不确定性特别强烈,更多还是很宏大的叙事。
从整体行业发展来看,AI + Web3数据这一赛道未来有哪些潜在的机会或发展方向?未来,AI是否有可能彻底升级数据产品,引入新概念?是否会增强用户的付费意愿?
Hashkey Capital-Harper:肯定是有潜在机会的。未来发展方向其实还是落后于web2 的AI,那里的创造力明显更强,web3这边的AI大概率也是web2 AI的映射实现吧。
Matrix Partners-子熹: 我觉得最近的妙鸭相机让大家意识到,其实人们对AI产品还是有付费的意愿的,这不像传统的SaaS产品或游戏,人们期望免费才会使用。用户对AI的付费意愿其实还是挺强的。
未来的话我可以提供一点想法。我们在做数据标注流程中有一个关键步骤叫做预标注,就是我们训练一个模型,让模型来进行初级标注。这一步非常有价值,可以节约很多人力成本。我们将原始数据投入预训练的模型进行预标注,然后进行半自动化的数据处理,最终手动进行精确标注。预标注可以显著提高效率,可能原本需要100人的工作,现在可能只需要50到70人。
另外预标注方面也涉及到AI和人的协作,通过你的反馈可以不断提高模型的预标注能力,从而减少数据标注团队的人数需求。随着AI和人的协作越来越好,原本100人的团队可能只需要30人。但是,这个过程有一个下限,即使AI协作做得非常好,仍然需要一定数量的人工进行最终的标注和审核。
在其他领域由于我不是数据科学家,我没有亲自清洗过数据或使用数据进行SQL查询,所以我不清楚AI在这些领域具体能提供多大的帮助。
Qiming Venture Partners-唐弈:我觉得长期内与Web3和AI是应该有一些交集的。比如从意识形态的角度,Web3的价值体系是可以结合到AI上的,很适合作为bot的账号体系或者说价值转化体系。想象一下,一个机器人拥有自己的账户,可以通过其智能部分赚钱,以及为维护其底层计算能力付费等。这些概念有点科幻,实际应用可能还有很长的路要走。
第二个可能的方向验证AI模型的输出是否基于特定类别或特定的模型,或者特定的数据,并且是否可信。这些领域在可信的AI模型中可能有一些用处。从技术角度来看这些非常有趣,但是否有足够的市场需求尚不确定。
另外一方面是AI的出现使数据内容生成变得泛滥和廉价。对于数字作品等内容,难以确定其质量和创作者。在这方面,数据内容的确权可能需要一个全新的体系,包括创作者和智能体的角色。但总的来说,这些问题可能仍然有待解决,而故事性的内容可能需要更长的时间来发展。在短期内,我们应该继续关注数据底层的质量,并期待模型能够变得更强大。
另外在商业化方面,确实数据产品商业化非常难。但是我认为从商业角度来看,AI可能短期内不是解决数据产品商业化问题的解决方案。商业化需要更多的产品化努力,而不仅仅是数据化能力。因此,这些项目可能需要开发其他产品来实现商业化。