我今天演讲题目是《大数据存储的挑战》和《人工智能大潮的新浪——ChatGPT》。我们谈数字经济,数字就是我们的基础。我谈三个小专题,数据需要存储,容量有困境,纾困需要寻找出路。
数据的存储这是一个最基本的问题。其实我们可以从数字信息技术的本质谈起。我们所谓的数字信息技术的本质,就是将现实世界中的信息,转换成二进制电子数据。现实当中有图片、流量甚至金钱,我们变成二进制的电子数据,然后用计算机进行采集、搜集、显示等等,帮助人们进行正确的决策。所以数据本身就是支撑数字经济的重要基石,也是推进着智慧管理的重要资料。数据,还是数字化的数据。
那么为了引领数字经济创新服务潮流。我们在IT这个领域已经奋斗了上百年的历史。从早期的打字机,到计算机主机、个人电脑、手机、可穿戴设备等等,这些数字化的手段,引领整个社会的数字化进程。在这个进程当中,我们一步一步地产生了电子商务、智慧地球、智慧城市、认知业务等等。就像一棵树,我们看到了树枝、树叶、果实、树干等等。这里面区块链、人工智能、智慧城市等等很多琳琅满目的题目和应用。特别是像中国的美团、饿了么、携程等等。这些是我们肉眼可见的应用方面。就像我们看到一棵树,我们看到树枝、树叶、果实在地面部分。这棵树能够成长,生根发芽,依赖的是树根。根通常在地面之下,我们通常看不到,这就是数据,数据的存储和存储的关联,这是我们要谈论这件事情的关系。
这件事情,数据存储的技术产品,已经沿革了上百年了。从早期一百年以前,大家用纸质的笔记本来记录数据。我们用穿孔卡片,打洞,光线能穿过去,穿不过去这种形式记录,当时写程序就是一张卡片。然后变成穿孔纸带,一个操作系统我们28层纸带,然后做成了磁性的硬盘,磁性的软盘,光盘,固态盘,以及未来将会出现的原子级存储器,分子级存储器。数据存储技术在不断地蓬勃向前发展,这是我们很多人不容易看到。因为我们看到树的时候很难看到树根,但是它在扎扎实实地引领着创新基础技术的发展。
那这件事情有多重要呢?这就是我们今天要谈论的的话题。首先是教育上的创新,数据存储在任何的高校,很少会有一个专门的专业来开设。我们有计算机专业,这是八十年前IBM开创的计算机科学这样一个教育学科。现在全世界的普通高校都有这样一个学科。但是数据存储,没有一个独立的学科。这涉及到教育上的创新。产业上的创新,目前的存储器体积太大,效率太低,涉及到安全性等等一系列的问题,需要研发新型的数据存储产品,于是需要技术深的创新,而数据存储涉及到底层核心技术,涉及到了很多不为人知的短板。这就是我们现在亟待解决的问题。
数据存储一直面临很多困难。现在我们面对的一个很大的困难就是容量困境。现在的数据存储技术无法回答未来我们将数据往哪里放。那么数据量是蓬勃的发展,不论是有疫情、战争,国与国的争端,数据就是在增加。但是我们数据存储空间的速度赶不上数据量增加的速度。
那怎么办呢?现在在中国,至少我们看到这样的权宜之计:定期的删除数据。比如说智慧城市,全国的智慧城市大概只能存一个月的数据。就是哪些十字路口的监控摄像头等等,只能存一个月。那么把老数据删掉,才能把新数据存进来,这是目前的管理办法,这是一个权宜之计,删掉就没有了。如果你想要看一个三个月前的视频,就没有了。不删库存,没有地方。这就带来了很痛苦的一个问题,现在我们搞大数据。历史数据你把它删掉了,这个数据的学习方法就受到限制了,这不是一个好办法。但是目前这是权宜之计,全国各地都没有办法。
还有一个办法,盖房子,我去圈一块地,然后拆迁盖房子,把通水通电拉进去,一个数据中心建成,我可以存数据了。这也不是一个好办法。耗费资源,耗费电力资源,人力资源,国土资源等等,这种形式都不是好办法,我们认为这一些都是非技术手段,来对大数据容量的困境进行纾困,这是不可持续的。当然现在没有办法的办法,国家的一个战略部,叫东数西算,把东边的数据放到西边去,这个工程投资体量,达到一年上千亿元。
传统的基建是盖房子,盖房子这件事,我们认为这是一个房地产行业,绝对不是存储技术。数据存储中心的建设,如果靠房地产的方式来进行,有很多痛点,维护设备的痛点,运维人员的痛点,数据中心能耗的痛点,这涉及到双碳等等。中国对国际上有一定保证,我们要达到一定的双碳目标,如果铺天盖地盖数据中心,这是不合理的。
那么土地资源的占比,虽然我们有很多国土,大家它还是有限的。据估计,减少一个PB存储容量,可以减少三百块钱,这是有利可图的商务行为。特别要指出的,数据存储的管理核心技术。是我们卡脖子关键技术清单中的基础,我们有30几项卡脖子关键技术清单,中间的操作系统、核心工业软件、核心算法等等,基础的核心技术是数据存储的管理,都是建立在数据存储之上的,所以这件事情非常重要。那么怎么样做才是合理的呢?要用创新研发,应对扩容的挑战。
我们至少可以讲两个容量纾困的思路,第一减少数据存储空间的需求。比如开发数据驱重的产品。第二可以缩小数据存储的体积。比如探索原子级的存储器。纾困的思路,这两者我们应该在这方面发力气一来做这个事情。数据去重,这是一个减少数据存储空间需求的方法,识别重组数据的模块是操作系统之下的模块,然后只存储单一的模块和存储的链接关系。产生的效果就是我今年要采购十个存储机柜,经过数据去重处理之后,只要两个就够了。十个机柜,五百万美元。两个,一百万。节省了空间,节省了资金,这种原理简单。
我们十年前,IBM已经将这个产品推向世界了。目前大型的企业,都在使用这类的去重技术。中国大型的银行也使用。但是不是中国自主可控的产品,是国外的产品,IBM是一个国外公司,所以实用的产品技术要多年积淀,才能形成产品力量。这样的产品市场需求十分旺盛,刚需的场景至少有两个,一个是企业的通用数据灾备系统,需要备份,备份一个月,备份三十个版本。这三十个版本中间,有大量的重溯数据,于是识别这种重溯数据进行有效存储,是节省存储空间的有效方法。
还有智慧城市监控视频,对准着我们一个位置一天24小时拍摄下来的视频,背后的立交桥是不变的,只有车身网能变动。所以这类的视频信号有大量的重溯数据,地形、地貌、建筑等等是可以进行去重处理的。曾经北京海淀区做过一个估算,他一年需要人民币一亿六千万,如果使用数据去重产品,可以降低存储空间一半,于是可以节省八千万,全国有三百多个地级市,有近三千个行政区。所以这是一片亿万商机的海洋,目前是我们的空白点,没有自主可控的产品。
第二个思路,探索原子级的存储,大幅缩小数据存储设备的体积。缩小多少倍,几十倍,几百倍,几十万倍,这是我们的目标。基本的想法是盖一栋楼,是一个海量的数据存储中心,我们希望中间所存的数据,可以存到一个便携式的存储设备上去,比如一个U盘,类似一个火柴盒,或者打火机。这是便携式的,可能吗?可能的,数十万个原子表达一个零或者是一,就是物理键,不管你是光盘,U盘,还是磁盘,每表达一个零或者一,大概要几十万个原子。我们希望用一个原子表达0或者1,比如正转为0,反转为1,就这么一个思路。当然这中间有一系列的专利,用这样一个办法,就指引着未来数据存在的发展方向,微型化数据存储设备。这件事情,已经有了一些进展,但还没有形成产品,它的要点就是采集原子状态的切换,实现数据的微型化。这是一个创意的思路,需要进行顶盘的实践,2017年3月份,IBM已经宣布成功在单个原子存储一个比特的数据,这已经发表了论文。这种思路,会指引着我们来面对大数据存储容量的困境。
我们还看到有一些公司,像微软,也在做这件事情,用DNA的分子级数据,来存储大数据。在这种情况之下,那我们的数据存储设备也可以降到分子级别,于是可以节省存储空间。
所以今天我的第一个话题就是数据存储这件事情是一个问题,它的容量我们面对的困境。那我们提出来的纾困的思路是从技术上想办法,减少存储空间需求,缩小数据存储设备的主机,这是我要分享的第一个题目。
第二个题目,是现在最为热火的题目,ChatGPT,跟我们有着非常密切的合作关系。我们认为它是一个人工智能大潮的一个新浪。人工智能这个领域,它有一个漫长的发展过程,有几百年了。很多杰出的科学家做了铺垫工作。什么是人工智能?怎样实现人工智能?怎么样判定某一个机器具备了人工智能?著名的图灵试验,就是做这类的事情。那么在90年代,当时IBM做了一个实践,就是造了一个深蓝计算机,下棋,战胜了人类的象棋大师。这是人类历史上第一次,我们用一代机器,它不是人,但是战胜了人的某种智力,从那之后开辟了将人工智能用计算机设备来实现的一个方向。机器人、机器手,当然下象棋、跳棋,围棋、打扑克,蓬勃的发展。
人工智能研究领域,我们在这张图上简单表示是这样。右边是人类的智能,我们作为人类,这个物种生活在世界上,我们拥有很多的智能。左边是计算机所能做的事情,怎么样让计算机越来越多越来越逼真地模拟人的能力,这是人工智能研究领域。中间的黄色部分是成千上万的科研工作者,在用毕生的精力,论文、算法等等来做这件事情,这是我们在这个领域的概况。
那这个领域,目前有很多问题,但是并不妨碍它蓬勃的发展,影响着我们现代社会的实际应用。我们产生了人工智能技术的产业链群,有方案、应用技术、基础设施,产生了一系列的细分的行业。这样的行业不是我们今天的主题,它的要点,只要有一个现实生活中的应用,我们就希望用信息技术的手段来提高这个应用的使用效率。客户的满意程度和它的生产过程、质量等等。这是我们的基本思路。
所以人工智能沿着这个思路在发展。这个思路最早是棋类游戏,下棋,它的规则是固定的,但是计算数量非常大。人忙不过来,那用计算机的大量算力,来跟人力智力比。下一个级别是智力问答,它就是回答问题,背后是海量数据,将这些问题分类,然后演示出来,用跟人自然对话的方式进行交流。然后是辩论比赛。两个辩手,一个是真实的人,一个是计算机进行辩论,产生题目,然后制造话题,互相听取论点,然后进行反驳,最后结尾,这个已经到了这一步。下一步是高级决策,帮助我们的企业经理、决策人、政府官员提供数据型的关键性的的人工智能的方案。
这个方案现在遇到了强劲的风口,人工智能正在进军人类的独有领域。以前我们认为这个领域只有人类才能做到,机器不可能做到的,现在人工智能新的设备不断登场。早期已经有几个,在去年的时候,Lthaca帮助历史学家恢复古代铭文,并追溯铭文的起源,这里面有很多智能的算法和数据集。AlphaCode,它可以编程序,编出来的程序和初级程序员写出来差不多。这个DeepNash可以学会下西洋的陆军棋,现在他的冠军永远是计算机了,人类已经下不过它了。还有像AlphaFold和ESM-Fold,它可以预测一种蛋白质结构,过去结构,生物化学里面很重要的手段是分析预测蛋白质的结构,一个实验室一年分析出四五个人来,花费大量的人力,现在不用了,人工智能可以做这个事,一年可以做各级亿个。像ALpha Tensor就是矩阵式相乘的运算,今天我们要谈的是ChatGPT,回答复杂的问题,我们叫做生成内容式的人工智能,叫IAGC。它本身就是让计算机非常聪明的与人进行对话。计算机是计算机,但是它对话的时候,就像我们跟一个人进行交谈一样。这个手段不是唯一的,不是ChatGPT全世界独一的。有很多聊天机器人,谷歌有,facebook有,当然openAI出尽了风头,ChatGPT做得最好。
ChatGPT它适合人机对话,它结合了目前处于巅峰状态的人工智能机器学习的方法,变成一个人工智能机器人。在这种对话的方式当中,它模仿人类的对话。过去我们在计算机上要搜索一个东西,它会给你一个答案,或者给你一组答案,让你自己去学。现在不是了,现在它相当于人坐在背后,找到这个答案之后,经过逻辑思考,推理出来很有条有理地表述这个答案,像是在聊天的过程。这种方式是企业为客户服务非常需要的一种方式,像聊天的实时交流的方式。
所以ChatGPT目前有一些主要功能,我就是在ChatGPT上咨询了这个功能,我说你有什么功能,它说我可以做这样一些事,聊天对话,文本生成,翻译,摘要等等。它可以做这样一些事情,这些事情可以有很多实际的应用,比如说自动化的客服,你打电话问银行,你们的利率多少,几点钟开门,地址在哪里。另外它可以产生文章,产生一些内容来进行宣传,产生一个连续的问答系统,这一些都是ChatGPT的非常有意思的地方,也是目前人们非常关注它,愿意跟它交流和学习的方式。
它的很重要的一个作用,影响到了我们整个人的思考,就是它对知识传递方式产生了颠覆。我们过去知识的传递方式,最早那是口口相传,古人就是把自己过去的经验传给下一代,口头传授,效率非常低,准确性很差,能够传递下来的东西很少。后来有了书写系统,这个书写系统进一步演变成了印刷技术。这时候信息传递已经蓬勃地展开,人类的智力得到很大的开发。
然后数字媒体,现在是智能对话。就是这样将知识传递的方式,逐渐的演化,颠覆了过去的传递方式。当然现在对于教育系统,有了极大的压力,在北美、美国,加拿大我们已经开过好几次讨论会了,我们谈论过这个话题。教育界向何处去。因为教育界基本上做这样三件事,传递知识,告诉学生你要记住这个,记住那个。这件事情,只要问ChatGPT,不应该这样教学生了,需要死记硬背的动了,要大量的减少。还有要教给学生获取知识的技巧方法,什么方法是最有效的?这个是需要深思的。另外就是能力,思考的能力,结合已有的知识提炼逻辑思考判断的能力。这个ChatGPT给很多行业带来了深度的思考。那么巧妙地使用ChatGPT,特别是它的API,才能创造新的商机。这是我们目前公认的结论。也希望跟大家分享这样一件事。
ChatGPT是一个软件,中间有很多数据,从过一个API,一个接口,我们可以让它做很多事情。换句话说,利用ChatGPT为我们的实际应用服务。甚至为我们对话机器,语音识别,翻译等等,可以在医学、交通、警务、政务、教育等等,用这种洽谈的方式,引领着人工智能的应用。这场智能的交流,就会变得无所不在。很多朋友都谈到这样一个共识。现在你买一个计算机,没有操作系统的计算机,你是很难想象的。一定是有操作系统的计算。但是,最早的计算机没有操作系统的。我们为了把它计算机各个部件管理起来,比如软件、硬件、CPU、进出口、网络等等。我们才组成了操作系统这样一个软件系统。这是目前电脑的情况。未来可能所有的电脑或者是所有的电子设备,都应当有人工智能的方法。如果说你买了一个计算机,买了一个电子设备,没有AI的功能,就像你现在买了一个电脑,没有操作系统,没法用。这可能是现在跟未来的比较。这个未来的发生,可能不会很久。未来三五年就会有,所有的计算机可能都有AI的功能。
ChatGPT虽然还有很多问题,但是这个方向一定走的。所以我们使用计算机,充满了人工智能,而不是像我们现在简单的打字或者是用鼠标。得到的答案,也一定会有人情味和人类的友好的界面。
ChatGPT面对着挑战,这是我们一直在探讨的事情,它的挑战就是如何在商务应用上获得创新,那么这种思考和比较,你可以思考IBM Watson,这是企业级的服务。和Microsoft ChatGPT。IBM Watson是15年前,20年前一种经典的聊天机器人,当然它是商用的老手,目前号称整个商业世界都有应用。典型的应用就是银行机构,70%的全球银行季候都会应用到Watson,这是商用的一种手段。那么ChatGPT它是一个非常聪明能干的聊天机器人。但是它目前在商用还是菜鸟,怎么用?目前不知道。能不能用?也不知道,需要创新。那么目标是什么呢?用了它,对它商务业务,对于具体不同的企业有什么好处,怎么样帮助企业的业务得到成长,满足客户的需求,扩大生产,提高营业额、增加利润率等等。IBM Watson已经做到了,ChatGPT能不能做到?这是挑战。
如何在区块链中使用ChatGPT,我也特地问了一下ChatGPT,你在区块链中如何使用?它谈到了这样一些内容。
很多人都在关心ChatGPT会影响到哪一类人的工作岗位,这是有的。很多人类的一些初级劳动,重复性的劳动,可复制的工作,都会被这样一类自动化的手段代替,但是冲击人类工作的不是人工智能,而是掌握了人工智能工具的人。所以我们在座的每一个朋友,我们经常在美国、中国都是谈论这样一件事情。要驾驭AI这样一个浪潮,而不是被这样一个浪潮淹没。这里列出来的岗位,都会收到它的影响。如果你觉得这个岗位太累太繁琐,好的,让机器去做。这是ChatGPT在这个领域当中的一个贡献。未来趋势也是不可阻挡的,就是人工智能日趋频繁,变成一个寻常的手段。
一个典型例子,就是2022年6月,facebook meta它做了一个人工智能的战略转型,它原来有一个人工智能专门的研究机构,也做了很多很有意义的机构,他现在解散这个机构了,让这个团队中的人深入到各个产品组去。当然了,人工智能已经不是一个独立的研发机构,要融化到我们的产品细节当中去,这是一个指标。
我们也遇到很多朋友在谈论,AI for Finance,就是人工智能在哪个领域中具体应用?金融领域,智慧城市,在社交媒体,在军事领域,医疗领域等等。人工智能将会渗入到我们生活的各个方面。
ChatGPT从我们角度来看,它是技术发展的一小步,但是这是人工智能普及应用的一大步。这是我们对于这件事情的观点。我们认为未来是数字技术的认知时代,认知是我们人类所具备的一个基本功能,我们用数字技术的手段,从早期的读卡、计算、制表系统,到现在大量可变成计算机系统,将来会出现智能化的认知计算机系统,这个认知计算机系统的核心就是人工智能它的自动发现,自动识别,自动和人打交道。这样一个系统的出现,就是用大数据来驱动我们整个数字技术迈向越来越智能的人工智能时代。