2021 年的时候,一位基金经理在 Discord 上找到了人在德国的高中老师克里斯托夫·舒曼。


基金经理愿意承担舒曼开源项目的所有云计算成本,没有任何附加条件。


一开始舒曼不敢相信会有这样的好事,直到几周之后,他获得了 AWS 云端 GPU 的访问权。


他的项目是 LAION,世界上最大的免费 AI 训练数据集。


那位基金经理名叫 Emad,他创办了 Stability.AI,开启了 AIGC 的时代。


开源万岁。


以下内容来源 Bloomberg,由 GPT 翻译,Founder Park 做了些微小的校对。


头图来源:Discord LAION 社区



在德国汉堡郊区的一所郊区房子前,单词「LAION」用铅笔潦草地写在邮箱上。


这是一个庞大的数据收集工作的背后人物,这个工作是人工智能潮流的核心,并引发了一个越来越激烈的关于如何监管它的争议。


这个人是高中教师克里斯托夫·舒曼(Christoph Schuhmann),而 LAION 是他的热情项目。当舒曼不是在向德国青少年教授物理和计算机科学时,他与一小队志愿者一起建立了世界上最大的免费 AI 训练数据集,已经被用 AIGC,如谷歌的 Imagen 和 Stable Diffusion。


像 LAION 这样的数据库对于 text2image 的 生成式 AI 模型非常重要,它们依赖于它们来解构和创建新图像所需的大量视觉材料。这些产品的首次亮相是一个范式转移事件:它将科技行业的人工智能竞赛推向了巅峰,但也引发了许多道德和法律问题。


在几个月内,针对生成式 AI 公司 Stability AI 和 Midjourney 的版权侵权诉讼频发,批评者对其中暴力、性化和其他问题图像的数据集发出警报,他们指责这些数据集包含了几乎不可能解决的偏见。


但这并不是舒曼的关注点,他只想让数据自由。



01
40 亿美元 → 零收益


这位 40 岁的老师和受过演员训练的人,两年前在一个 AI 爱好者的 Discord 服务器上创建了 LAION。OpenAI 的第一版 DALL·E 是一个深度学习模型,用于响应文字 prompt 生成图片,例如,按要求创建一个粉色鸡坐在沙发上的图像。


舒曼受到启发,但也担心它会鼓励大型科技公司使更多数据专有化。


「我立刻明白,如果这个只集中在一个、两个或三个公司,对社会的影响将非常糟糕,」舒曼说。


作为回应,他和服务器上的其他成员决定创建一个开源数据集来帮助训练 t2i 扩散模型,这是一个类似于用数百万张闪卡向某人教授一种外语的几个月的过程。该组使用由加利福尼亚州非营利组织 Common Crawl 收集的原始 HTML 代码来定位网络上的图像并将其与描述性文本相关联。它不使用任何手动或人工策划。


几周后,舒曼和他的同事拥有了 300 万张图像文本对。三个月后,他们发布了一个含有 4 亿文本标注图片的数据集。现在,这个数字已经超过了 50 亿,使 LAION 成为最大的免费图像和标注数据集。


随着 LAION 的声誉不断提高,团队一直在无偿工作,2021 年获得了机器学习公司 Hugging Face 的一次捐赠。然后有一天,一位前对冲基金经理进入了 Discord 聊天室。


Emad Mostaque 主动提出承担计算能力的费用,没有任何附带条件。他想要启动自己的开源生成式 AI 业务,并渴望利用 LAION 来训练他的产品。团队最初嘲笑这个提议,认为他是一个疯子。


舒曼说:「我们一开始非常怀疑,但经过四周左右,我们获得了云端的 GPU 资源,这些资源通常的费用约为 9000 美元或 10000 美元。」


当 Mostaque 在 2022 年创办 Stability AI 时,他使用了 LAION 的数据集来训练 Stable Diffusion,并雇用了该组织的两名研究人员。一年后,Stability AI 目前正在寻求 40 亿美元的估值,这在很大程度上得益于 LAION 提供的数据。


舒曼没有从 LAION 中获利,他对此不感兴趣。「我仍然是一名高中老师。我拒绝了各种公司的工作邀请,因为我希望它保持独立。」


02
数据集就是AI 时代的石油


像 LAION 这样的数据库中的许多图像和链接,一直以来都明目张胆地存在于网络上,有些甚至已经存在数十年之久。


它需要 AI 的兴起才揭示出它的真正价值,因为数据集越大且越多样化,其中的图像质量越高,AI 生成的图像就会越清晰、更精确。


这一认知反过来又引发了许多法律和伦理问题,即公开可用的材料能否用于填充数据库——如果答案是肯定的,那么创作者是否应该得到报酬。


为了建立 LAION,创始人们从 Pinterest、Shopify 和 AWS 等公司中获取了视觉数据——这些公司并未就 LAION 使用它们的内容是否违反了其服务条款发表评论。还包括来自 YouTube 缩略图、DeviantArt 和 EyeEm 等作品集平台的图像、来自包括美国国防部在内的政府网站的照片,以及来自新闻网站如《每日邮报》和《太阳报》的内容。



如果你问舒曼,他会说任何在网上免费提供的东西都是公平竞争的。但目前欧盟还没有 AI 监管,即将公布的 AI Act,其语言将在今年夏天早些时候确定,也不会规定版权材料是否可以包含在大型数据集中。


相反,立法者正在讨论是否包括一项规定,要求 AIGC 背后的公司披露其产品训练所使用的数据集中包含了哪些材料,从而给这些材料的创作者提供采取行动的选择。


欧洲议会议员 Dragos Tudorache 告诉彭博社,这一规定背后的基本思想很简单:「作为生成式 AI 的开发者,你有义务记录和透明地披露你在算法训练中使用的版权材料。」


这种规定对于 Stability AI 不是问题,但对于其他 t2i 模型可能会带来问题「没有人知道 Open AI 实际上用来训练 DALL·E 2 的是什么,」舒曼说,以此作为技术公司封锁公共数据的例子。这也将颠覆现有的数据收集现状。


「在这个领域中,惯例是假定您不需要同意或不需要通知人们,或者他们甚至不需要知道这一点。人们有一种自认为拥有权利的感觉,即无论网上有什么,您都可以爬取并将其放入数据集中,」Mozilla 基金会值得信赖的 AI 高级研究员 Abeba Birhane 说道,他已经研究了 LAION。


尽管 LAION 没有直接被起诉,但它已被列为两起诉讼的被告:一起指控 Stability 和 Midjourney 违反 DMCA 版权法和公众权利法,违法竞争和违反 TOS,使用艺术家的版权图片来训练其模型,另一起是由盖蒂影像公司针对 Stability 提出的,指称 LAION 爬取了其 1200 万张图片用于训练 Stable Diffusion。


由于 LAION 是开源的,因此不可能知道有多少其他公司使用了该数据集。谷歌已经承认它利用 LAION 帮助训练其 Imagen 和 Parti AI 文本到图像模型。舒曼认为其他大公司正在悄悄地这样做,只是不会披露。


03
互联网的黑暗面


当他的儿子玩《Minecraft》时,舒曼坐在客厅里,将 LAION 比作「大信息技术海啸」上的「小型研究船」,采集下面的样本并展示给世界看。


「这只是互联网上公开的资源的一小部分,」他说到 LAION 的数据库,「因为即使是我们这样的人,只有来自捐赠者的 1 万美元的预算,也能够得到它。」


但是,公开的并不总是公众想要的,或者是合法允许看到的。除了猫和消防车的安全图片,LAION 的数据集还包含了数百万张色情、暴力、儿童裸体、种族主义梗、仇恨符号、版权艺术和从私人公司网站上抓取的作品。


舒曼表示,他不知道 LAION 的数据集中是否有儿童裸体照片,尽管他承认他没有深入审查数据。如果得到这样的内容通知,他说,他将立即删除与之相关的链接。


在开始组装数据库之前,舒曼咨询了律师并运行了自动化工具来过滤非法内容,但他对于清洗 LAION 的数据并不感兴趣,而是希望从中学习。


「我们可以从发布的数据中过滤出暴力内容,」他说,「但我们决定不这样做,因为它将加速暴力检测软件的开发。」LAION 提供了一个撤下表格以请求删除照片,但是该数据集已经被下载了数千次。


从 LAION 中提取的攻击性内容似乎已经整合到了 Stable Diffusion 中,尽管最近已经加强了过滤器,但很容易生成假的伊斯兰国斩首照片或大屠杀图像。


一些专家认为,这样的材料也可能在 AI 模型本身内部产生偏见:即使文本提示没有暗示主题的种族,像 Dall·E-2 和 Stable Diffusion 这样的工具也因复制种族刻板印象而受到批评。


这些偏见是谷歌决定不发布经过 LAION 训练的 Imagen 的原因。


当被要求发表评论时,Stability AI 表示,它在 LAION 数据库的一个策划子集上对 Stable Diffusion 进行了训练。该公司在一封电子邮件中写道,它试图「为该模型提供比原始 SD 更多样化和广泛的数据集」,并尝试使用「LAION 的 NSFW 过滤器」删除「成人内容」。


即使是基于开源的人工智能的支持者也警告说,在未加筛选的数据集上训练人工智能的影响。


根据 Hugging Face 的机器学习和社会团队负责人 Yacine Jernite 的说法,基于有污点的数据的生成式 AI 工具将反映其偏见。「模型是它所训练的内容的非常直接的反映。」


Jernite 补充说,在产品运行后引入防护栏是不足够的,因为用户总是会找到规避安全措施的方法。他们说:「当你拿一个训练有素的模型来模拟人们在互联网上的行为,并说:『好的,但不要这样做。』人们会找到一种方法来让它仍然这样做。」


数据非营利组织 Common Crawl 的创始人吉尔·埃尔巴兹(Gil Elbaz)怀疑「不能从训练集到生产之间画一条直线」,并将该过程比作一个去博物馆寻找灵感但被阻止复制艺术品的艺术家。他说,「重要的是社会决定哪些用例是合法的,哪些用例是不合法的。」


这不仅仅是由社会决定。随着欧洲监管机构制定人工智能使用法规,他们正在努力应对的事实是,目前人工智能热潮正在挖掘的数据多年来一直处于法律灰色地带,而这一现状现在才受到严重审查。欧洲议会成员图多拉切 (Tudorache) 说:「没有多年的数据积累,人工智能不可能达到这种复杂程度。」


但在舒曼的眼中,应该监控的不是数据集。在他看来,人工智能的最坏情况是大型科技公司通过为监管框架定制工具来排挤开发人员。「如果我们试图放慢速度并过度监管,」他警告说,「最终的风险是只有少数大型企业玩家能够承担所有正式要求。」



巴比特园区开放合作啦!





中文推特:https://twitter.com/8BTC_OFFICIAL

英文推特:https://twitter.com/btcinchina
Discord社区:https://discord.gg/defidao
电报频道:https://t.me/Mute_8btc
电报社区:https://t.me/news_8btc