雷涛：未来的AI，需要自主生产数据来训练自己

2025-04-08 11:30:32

来源：智能MOTOVIS

“我们建设的各种算力基础设施，构建的庞大算力，不能仅仅供给AI企业，更应扩展视野，服务于千行百业。”近日，由北京市科协、北京科技记协组织的“首都科技人”宣传活动中天云数据CEO、第九届吴文俊人工智能科学技术发明奖获得者雷涛如此阐述自己对人工智能所需算力的理解。

雷涛是中国第一代Java开发者之一，20世纪90年代参与制定了存储行业国际标准，2000年，他推动云计算落地，后又带领团队一直深耕数据智能赛道。

坚持“做原创”，开发国产自研数据库

作为IT行业知名数据专家、首批中国计算机学会(CCF)大数据专委会委员，雷涛对于数据的价值有着独到的认识。他认为，“数字经济时代，我们要给数据赋能，让数据服务大众。如何做到这一点?首先需要新一代的基础设施，而数智技术搭建的正是这样一种大平台。”

而他自己，就是一个数据基础设施的搭建者。2010 年，当分(fēn)布(bù)式(shì)数(shù)据(jù)和(hé)机(jī)器(qì)学(xué)习(xí)(AI)的(de)曙(shǔ)光(guāng)初(chū)现(xiàn)时(shí)，雷(léi)涛(tāo)凭(píng)借(jiè)敏(mǐn)锐(ruì)的(de)洞(dòng)察(chá)力(lì)，毅(yì)然(rán)投(tóu)身(shēn)到(dào)这(zhè)一(yī)领(lǐng)域，带(dài)领(lǐng)团(tuán)队(duì)研(yán)发(fā)国(guó)产(chǎn)自(zì)研(yán)数(shù)据(jù)库(kù)。

其(qí)实(shí)做(zuò)一(yī)个(gè)数(shù)据(jù)库(kù)工(gōng)程(chéng)并(bìng)不(bù)难(nán)，把(bǎ)应(yīng)用(yòng)场(chǎng)景(jǐng)打(dǎ)磨(mó)好(hǎo)，一(yī)两(liǎng)年(nián)时(shí)间(jiān)就(jiù)可(kě)以(yǐ)实(shí)现(xiàn)快(kuài)速(sù)盈(yíng)利(lì)，但(dàn)雷(léi)涛(tāo)果(guǒ)断(duàn)选(xuǎn)择(zé)了(le)“做(zuò)原(yuán)创(chuàng)”。

“做(zuò)原(yuán)创(chuàng)产(chǎn)品(pǐn)，才(cái)是(shì)下(xià)一(yī)代(dài)产(chǎn)品(pǐn)的(de)核(hé)心(xīn)命(mìng)脉(mài)，工(gōng)程(chéng)只(zhǐ)是(shì)在(zài)上(shàng)一(yī)代(dài)产(chǎn)品(pǐn)上(shàng)做(zuò)延(yán)续(xù)性(xìng)创(chuàng)新(xīn)，无(wú)法(fǎ)支(zhī)撑(chēng)基(jī)础(chǔ)设(shè)施(shī)。”雷(léi)涛(tāo)把(bǎ)几(jǐ)乎(hu)全部(bù)的(de)资(zī)金(jīn)都(dōu)用(yòng)在(zài)了(le)研(yán)发(fā)上(shàng)，可(kě)最(zuì)初(chū)推(tuī)向(xiàng)市(shì)场(chǎng)的(de)时(shí)候(hou)，却(què)经(jīng)常(cháng)被(bèi)客(kè)户(hù)质(zhì)疑(yí)。

但(dàn)这(zhè)所(suǒ)有(yǒu)的(de)难(nán)，并(bìng)没(méi)有(yǒu)让(ràng)雷(léi)涛(tāo)打(dǎ)退(tuì)堂(táng)鼓(gǔ)，他(tā)最(zuì)终(zhōng)开(kāi)发(fā)出(chū)一(yī)套(tào)基(jī)于(yú)Go语(yǔ)言(yán)纯(chún)自(zì)研(yán)的(de)HTAP数(shù)据(jù)库(kù)产(chǎn)品(pǐn)Hubble。这(zhè)套(tào)数(shù)据(jù)库通过中国软件测评中心的源代码测试，系统自主研发率达到99.62%，完全符合国家信创战略，解决了基础设施“卡脖子”的难题。

有了自研的数据库，就有了未来面对国际巨头能够立足的底气与根本。雷涛说，现在机器传感物联网的数据时代已经到来，大量的数据通过设备或者产业服务产生出来，“而在我们搭建的基础设施之下，能诞生更多类似ChatGPT的智能应用。我们只要把数字基建搭好，把平台不断完善，数据就能真正服务每一个人。”

近年来，人工智能的快速发展深刻地改变着各个行业的格局。2019年，资本市场剧烈震荡，伞形信托引发的配资乱象让传统规则监管束手无策。雷涛带领的天云数据团队另辟蹊径，将600万正常账户数据与2000多个问题账户“喂”给深度学习模型，让人工智能自主发现人类难以察觉的异常模式。

“就像训练警犬识别新型毒品，我们不(bù)需(xū)要(yào)告诉它化学成分，只需让它记住气味。”雷涛说，这套系统将监管效率提升数个量级，成为“证监会(huì)版(bǎn)”监(jiān)管(guǎn)沙(shā)盒(hé)项(xiàng)目之一。

他拿出(chū)手(shǒu)机(jī)展示团队研发的工业检测系统，AI通过3D点云数据，能像资深技工般“摸”出精密零件的微米级瑕疵。“语言大模型是二维革命，视觉大模型是2.5维突破，空间计算将开启三维智能时代。”他说。

在雷涛和团队的努力之下，现在的天云数据，能同时提供国产HTAP数据库Hubble与AI平台型基础设施，并被评为国家级高新技术企业，首批中关村前沿科技企业，以及Forrester人工智能认知层第一象限公司。

算力基础设施应服务于千行百业

人工智能有三大核心要素，即所谓算力、算法、数据，其中算力可以说是其中的基础。什么是算力?通俗地说，就是计算能力，代表数据中心的服务器对数据进行处理后实现结果输出的一种能力。

人们常说，人工智能的尽头是算力，而算力的尽(jǐn)头(tóu)是(shì)电(diàn)力(lì)。数(shù)据(jù)显(xiǎn)示(shì)，2023年(nián)我(wǒ)国(guó)算(suàn)力(lì)中(zhōng)心(xīn)能(néng)耗(hào)总(zǒng)量(liàng)为(wèi)1500亿(yì)千(qiān)瓦(wǎ)时(shí)，同(tóng)比(bǐ)增(zēng)长(zhǎng)15.4%，约(yuē)占(zhàn)全社(shè)会(huì)用(yòng)电(diàn)量(liàng)的(de)1.6%。可(kě)见(jiàn)算(suàn)力(lì)增(zēng)长(zhǎng)也(yě)会(huì)大(dà)幅(fú)增(zēng)加(jiā)对(duì)电(diàn)力(lì)的(de)消(xiāo)耗(hào)。雷(léi)涛(tāo)表(biǎo)示(shì)，现(xiàn)在(zài)已(yǐ)有(yǒu)越(yuè)来(lái)越(yuè)多(duō)的(de)国(guó)内(nèi)外(wài)AI巨(jù)头(tóu)积(jī)极(jí)与(yǔ)能(néng)源(yuán)电(diàn)力(lì)企(qǐ)业(yè)合(hé)作(zuò)，有(yǒu)的(de)甚(shén)至(zhì)直(zhí)接(jiē)生(shēng)产(chǎn)电(diàn)力(lì)，以(yǐ)满(mǎn)足(zú)算(suàn)力(lì)快(kuài)速(sù)增(zēng)长(zhǎng)对(duì)于(yú)电(diàn)力(lì)的(de)庞(páng)大(dà)需(xū)求(qiú)。

在(zài)我(wǒ)国(guó)，很(hěn)多(duō)地(de)方(fāng)正(zhèng)大(dà)力(lì)建(jiàn)设(shè)算(suàn)力(lì)基(jī)础(chǔ)设(shè)施(shī)，投(tóu)资(zī)不(bù)菲(fēi)。雷(léi)涛(tāo)认(rèn)为(wèi)，大(dà)家(jiā)顺(shùn)应(yīng)AI时(shí)代(dài)潮(cháo)流(liú)进(jìn)行(xíng)这(zhè)些(xiē)建(jiàn)设(shè)本(běn)来(lái)是(shì)件(jiàn)好(hǎo)事(shì)，但(dàn)也(yě)要(yào)考(kǎo)虑(lǜ)实(shí)际(jì)情(qíng)况(kuàng)，因(yīn)地(de)制(zhì)宜(yi)，不(bù)要(yào)搞(gǎo)重(zhòng)复(fù)建(jiàn)设(shè)，更(gèng)不(bù)能(néng)有(yǒu)投机的想法。“规划建设过程中要看清AI的发展趋势，紧跟技术前沿，不要再做一些已经明显落伍的东西，所谓一步落后，步步落后!”他说。

雷涛还表示，建好的算力基础设施要如何发挥作用很关键，不能仅仅(jǐn)满(mǎn)足(zú)AI企(qǐ)业(yè)需(xū)要(yào)，更要关注MaSS市场(大众市场)，要让算力像互联网或者(zhě)水(shuǐ)、空(kōng)气(qì)一(yī)样(yàng)，成(chéng)为(wèi)一(yī)种(zhǒng)基(jī)础(chǔ)的(de)东(dōng)西(xi)，服(fú)务(wu)于(yú)千(qiān)行(xíng)百(bǎi)业(yè)。

“现(xiàn)在(zài)我(wǒ)们(men)很(hěn)多(duō)的(de)算(suàn)力(lì)中(zhōng)心(xīn)应(yīng)用(yòng)场(chǎng)景(jǐng)、客(kè)户(hù)群(qún)体(tǐ)等(děng)都(dōu)较(jiào)为(wèi)单(dān)一(yī)，远(yuǎn)不(bù)能(néng)发(fā)挥(huī)其(qí)全部(bù)作(zuò)用(yòng)。”雷(léi)涛(tāo)说(shuō)，“现(xiàn)在(zài)已(yǐ)是(shì)AI+的(de)时(shí)代(dài)，AI本(běn)身(shēn)正(zhèng)在(zài)与(yǔ)千(qiān)行(xíng)百(bǎi)业(yè)相(xiāng)结(jié)合(hé)，已(yǐ)渐(jiàn)渐(jiàn)成(chéng)为(wèi)一(yī)种(zhǒng)基(jī)础(chǔ)性(xìng)工(gōng)具(jù)，国(guó)家(jiā)建(jiàn)设(shè)的(de)算(suàn)力(lì)基(jī)础(chǔ)设(shè)施(shī)，也(yě)应(yīng)该(gāi)把(bǎ)重(zhòng)点(diǎn)放(fàng)在(zài)服(fú)务(wu)各(gè)行(xíng)各(gè)业(yè)上(shàng)。”

未(wèi)来(lái)AI将(jiāng)自(zì)己(jǐ)生(shēng)产(chǎn)训(xun)练(liàn)所(suǒ)需(xū)的(de)数(shù)据(jù)

春(chūn)节(jié)期(qī)间(jiān)，国(guó)产(chǎn)大(dà)模(mó)型(xíng)DeepSeek-R1横(héng)空(kōng)出(chū)世(shì)，证(zhèng)明(míng)了(le)用(yòng)更(gèng)低(dī)的(de)成(chéng)本、更少的算力需求，就可以实现世界一流的模型性能水平。据测算，DeepSeek-R1模型仅花费约600万美元就完成了训练，约为美国和欧盟同类大语言模型成本的1/50.在某些方面，该模型比OpenAI的o1模型要好得多。更重要的是，R1的运营成本仅为OpenAI通常对计算密集型输出收取的费用的3%。

雷涛认为，DeepSeek实现了大模型的祛魅，开启了中美后训练时代的大门，曾经被广泛依赖的技术大模型预训练模式，如今已不再是唯一的 “金科玉律”。相比算力过剩的问题，我们更应该关注的是算力和效率都满足的情况(kuàng)下(xià)有(yǒu)没(méi)有(yǒu)可(kě)以(yǐ)用(yòng)来(lái)训(xun)练(liàn)的(de)优(yōu)质数据。

实际上，数据是大模型的核心竞争力，高质量的数据资源会成为核心生产力，AI模型生产的内容高度依赖源头数据。有研究机构估计，机器学习可能会在2026年前耗尽所有“高质量语言数据”。

雷涛表示，今天的数据并不能满足明天的AI使用，明天的AI要自己生产数据资源。数据质量的高低并非由主观认知简单判定，而是取决于所采用的AI算法。如今已有大量数据由AI生成，但这并不意味着这些数据就是 “假数据”。

“所谓高质量与低质量数据，其评价标准与方式，归根(gēn)结(jié)底(dǐ)在(zài)于(yú)AI算法。” 雷涛进一步阐释，“这就是当下热议的数据飞轮概念。AI模型使用的数据由其自身生成，数据飞轮正是构建模型持续迭代生长的关键方法。”

很多人说AI自我生成的合成数据是虚拟的、空数据或者说是造出来的数据。不过雷涛认为，合成(chéng)数(shù)据(jù)是(shì)已知的数据通过确定的逻辑生产出来的数据，这些结果数据服务于真实的生产过程。

他还举了个例子，“百模大战”过后，为什么英伟达发布的大模型还可以挤到第一阵营?英伟达模型训练使用了98%的合成数据。无(wú)独(dú)有(yǒu)偶(ǒu)，特(tè)斯(sī)拉(lā)也(yě)是(shì)用(yòng)合(hé)成(chéng)数(shù)据(jù)获(huò)得(de)具(jù)身(shēn)机(jī)器(qì)人(rén)的(de)智(zhì)能(néng)。

合(hé)成(chéng)数(shù)据(jù)可(kě)降(jiàng)低(dī)对(duì)真(zhēn)实(shí)数(shù)据(jù)的(de)依(yī)赖(lài)

雷(léi)涛(tāo)认(rèn)为(wèi)，硬(yìng)件(jiàn)的(de)增(zēng)长(zhǎng)遵(zūn)循(xún)摩(mó)尔(ěr)定(dìng)律(lǜ)，而(ér)数(shù)据(jù)的(de)增(zēng)长则呈现指数型态势。我们如今所处的时代，已然是机器生产数据的时代，合成数据则是未来算力的主要解决方案。

合成数据究竟又是如何生成的呢?雷涛打了个比方，往一瓶水中滴一滴墨水，墨水会从相对简单的状态逐渐扩散，变得复杂、分散。通过逆扩散算法识别墨水扩散规律，就能模拟出不同的墨水扩散场景。合成数据也是利用类似原理，抓住核心规律，从简单数据出发，模拟数据的复杂变化过程，创造出丰富多样的数据。

“人类的抽象逻辑留给我们的数据资产有限，都是信息化进程中沉淀下来的结构化概要信息。而要把这些概要信息转变为能用于理解和处理复杂世界中复杂系统的内容，就需要大量合成数据。”他说。

另外，在某些特定领域或场景下，获取真实数据存在困难。以自动驾驶领域为例，其需要百万级别的路况数据，涵盖模拟极端灾难天气、极端恶性交通事故(如波音747在高速公路上迎面迫降)、复杂路况(如路面破损、立交桥断桥)等情况的数据。这些数据难以从现实世界获取，而合成数据可按需生成，填补数据缺口，降低对有限真实数据的依赖。

后训练推动AI从“发动机时代”走向“造车时代”

雷涛表示，当前，大模型的预训练时代已经结束，后训练时代正式开启。在后训练时代，大模型构建起从数据生成到模型强化的正向循环机制至关重要。就像移动互联网时代搜推系统的“数据飞轮”效应——通过应用数据优化算法，算法又反哺应用，人工智能大模型也应形成“数据飞轮”，借助AI生产训练数据(jù)实(shí)现(xiàn)自(zì)我(wǒ)训(xun)练(liàn)。

他还认为，后训练的核心在于从通用模型到领域知识、再到个体经验的深化。谷歌提出的L0-L6层级标准为后训练提供了框架，从基础模型的泛泛问答到高级的强化学习和智能体应用，后训练将推(tuī)动(dòng)AI从(cóng)“发(fā)动(dòng)机(jī)时(shí)代(dài)”走(zǒu)向(xiàng)“造(zào)车(chē)时(shí)代(dài)”。

“国(guó)内(nèi)AI市(shì)场(chǎng)已(yǐ)经(jīng)全面(miàn)进(jìn)入(rù)后(hòu)训(xun)练(liàn)时(shí)代(dài)，企(qǐ)业需要从通用模型出发，结合传统机器学习和机理方法，最终实现个体化的应用。”他说。

来源：北京科技报

官方网站-首页

案例搜索

雷涛：未来的AI，需要自主生产数据来训练自己