官方网站-首页官方网站-首页

EN

拍照就能识别万物,AI是怎么看“懂”图片的?

2025-01-14 12:01:30
来源:智能MOTOVIS

欢迎来到特别推出的寒假精品栏目“给孩子的高新科技课”!

人工智能作为当今最前沿的科技之一,正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车,从 AI 绘画到机器学习,它为我们打开了一个充满无限可能的未来。本栏目将以通俗易懂的方式,用视频和文字给孩子讲述人工智能的原理、应用及其对(duì)社(shè)会(huì)的(de)深(shēn)远(yuǎn)影(yǐng)响。

快跟我们一起开启这场 AI 之旅吧!

以下为文字版本:

生活中,AI 图像识别无处不在。

看到不认识的植物?拍张照片,分分钟就能找到答案。自动驾驶汽车也好像长了眼睛一样,能轻轻松松判断出,哪里是道路,哪里是树木。人脸识别技术,也让我们实现了刷脸支付(fù)。

而(ér)这(zhè)一(yī)切(qiè),都(dōu)离(lí)不(bù)开(kāi)一(yī)项(xiàng)技(jì)术(shù)——卷(juǎn)积(jī)神(shén)经(jīng)网(wǎng)络(luò)。这(zhè)项(xiàng)技(jì)术(shù),就(jiù)像(xiàng) AI 的(de)眼(yǎn)睛(jing)。

想(xiǎng)了(le)解(jiě) AI 的(de)眼(yǎn)睛(jing)是(shì)怎(zěn)么(me)工(gōng)作(zuò)的(de),我(wǒ)们(men)先(xiān)要(yào)看(kàn)一(yī)看(kàn)动(dòng)物(wù)的眼睛是怎么工作的。

从猫眼到 AI 眼(yǎn):视(shì)觉(jué)神(shén)经(jīng)元(yuán)的(de)启(qǐ)示(shì)

20 世(shì)纪(jì) 50 到(dào) 60 年(nián)代(dài),大(dà)卫(wèi)·休(xiū)伯(bó)尔(ěr)和(hé)托(tuō)斯(sī)坦(tǎn)·威(wēi)泽(zé)尔(ěr)对(duì)猫(māo)的(de)视(shì)觉(jué)进(jìn)行(xíng)了(le)研(yán)究(jiū),他(tā)们(men)发(fā)现(xiàn),在(zài)一(yī)幅(fú)画(huà)面(miàn)进(jìn)入(rù)猫(māo)的(de)视(shì)野(yě)之(zhī)后,猫大脑中负责视觉的神经元,被不同的东西激活了。

为了方便理解,我们看个例子。比如这样一幅画面,有的神经元对画面中物体的边缘线条非常感兴趣,会着重处理这些信息,有的神经元对大块的颜色比较敏感,更擅长处理这些信息。这些神经细胞一起工作,帮助生物识别各种复杂的图像。

图片

埃德加·德加 《去外省的赛马场》(At the Races in the Countryside)1869

这项研究,让大卫和托斯坦获得了 1981 年诺贝尔生理学或医学奖,也启发了人工智能领域一个非常重要的算法,卷积神经网络

在 1980 年代,日本科学家福岛邦彦设计了一个叫做 Neocognitron 的模型,用来识别日文手写字符,Neocognitron 中有不同的“层”,用来提取对不同的信息,最后综合这些信息对识别到的字符进行判断。

这启发了一位叫做扬·乐昆的法国科学家,扬·乐昆设计出了最早的卷积神经网络,并且基于卷积神经网络,建立了 LeNet 模型。这个模型在当时被很多银行用来识别手写字符。我们通过一个简单的例子,来看看卷积神经网络是如何工作的。

卷积神经网络:图像识别的幕后英雄

和神经网络相比,卷积神经网络在识别图片的时候,多了两个过程:卷积和汇聚。

卷积,这个过程,是由一个叫卷积核的东西完成的。

一张图片,在计算机(jī)的(de)眼(yǎn)里(lǐ),其(qí)实(shí)是(shì)一(yī)个(gè)个(gè)像(xiàng)素(sù)点(diǎn)组(zǔ)成(chéng)的(de)矩(ju)阵(zhèn),卷(juǎn)积(jī)核(hé)不(bù)是(shì)单(dān)独(dú)去(qù)考(kǎo)虑(lǜ)每(měi)一(yī)个(gè)像(xiàng)素(sù)点(diǎn)上(shàng)的(de)信(xìn)息(xi),而是同时对某个区域,比如 3×3,5×5 的像素点信息进行处理。这样可以综合考虑相邻像素点的信息,更好地提取出更高级特征。

你可以想象一下,卷积核就像是一个观测员拿着有特定视野的望远镜去看一幅图片,把看到的信息处理记录(lù)下来。

而且我们可以设置有不同侧重点的观测员,以提取图片中的不同维度信息。比如,有的观测员着重提取颜色信息,有的着重提取物体边缘轮廓信息,有的专门提取某个特定形(xíng)状(zhuàng)的(de)信(xìn)息(xi)。最(zuì)后(hòu)综(zōng)合(hé)这(zhè)些(xiē)信(xìn)息(xi),帮(bāng)助(zhù)神(shén)经(jīng)网(wǎng)络(luò)做(zuò)出(chū)更(gèng)好(hǎo)的(de)判(pàn)断(duàn)。

此(cǐ)外(wài),卷(juǎn)积(jī)神(shén)经(jīng)网(wǎng)络(luò)还(hái)有(yǒu)一(yī)个(gè)重(zhòng)要(yào)的(de)步(bù)骤(zhòu)——汇聚(又称池化)。

图片往往是一个非常大的矩阵,汇聚能够把一块区域里的信息压缩成一个信息。假如,对一个 16×16 的矩阵,可以通过汇聚的方法,提取 2×2 格子里颜色最深一格的信息,就能把它变成这样的 8×8 的矩阵。如果再进行一次相同的汇聚,就可以(yǐ)把(bǎ) 8×8 的(de)矩(ju)阵(zhèn),变(biàn)成(chéng) 4×4 的(de)矩(ju)阵(zhèn)。虽(suī)然图像汇聚后会有一些变化,但是依然保留了整个图像中的基本特征。

图片

图片

卷积和汇聚,让卷积神经(jīng)网(wǎng)络(luò)能(néng)够非常好地对图片信息进行提取,对于图像的学习处理效率上有了非常大的提升。

当然,卷积神经网络也会使用跟神经网络一样的反向传播算法,不断根据已知结果逆向调整神经网络中的参数,以做出越来越准确的判断。

那么(me),AI如(rú)何(hé)改(gǎi)变(biàn)一(yī)些(xiē)行(xíng)业(yè)的(de)生(shēng)态(tài)?接(jiē)下(xià)来(lái)的(de)几(jǐ)集中(zhōng),我(wǒ)们(men)将(jiāng)一(yī)同(tóng)探(tàn)究(jiū)。

策(cè)划制作

本文为-创作培育计划作品

出品(pǐn)|中(zhōng)国(guó)科(kē)协(xié)科(kē)普(pǔ)部(bù)

监(jiān)制(zhì)|中(zhōng)国(guó)科(kē)学(xué)技(jì)术(shù)出(chū)版(bǎn)社(shè)有(yǒu)限(xiàn)公(gōng)司(sī)、北(běi)京(jīng)中(zhōng)科(kē)星(xīng)河(hé)文化(huà)传(chuán)媒(méi)有(yǒu)限(xiàn)公(gōng)司(sī)

作(zuò)者(zhě)丨(gǔn)北(běi)京(jīng)云御纪文化传播有限公司

审核丨秦曾昌 北京航空航天大学 自动化科学与电气工程学院 副教授

策划丨符思佳

责编丨符思佳

本文封面图片及文内图片来自版权图库

转载使用可能引发版权纠纷