拍照就能识别万物，AI是怎么看“懂”图片的？

2025-01-14 12:01:30

来源：智能MOTOVIS

欢迎来到特别推出的寒假精品栏目“给孩子的高新科技课”！

人工智能作为当今最前沿的科技之一，正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车，从 AI 绘画到机器学习，它为我们打开了一个充满无限可能的未来。本栏目将以通俗易懂的方式，用视频和文字给孩子讲述人工智能的原理、应用及其对(duì)社(shè)会(huì)的(de)深(shēn)远(yuǎn)影(yǐng)响。

快跟我们一起开启这场 AI 之旅吧！

以下为文字版本：

生活中，AI 图像识别无处不在。

看到不认识的植物？拍张照片，分分钟就能找到答案。自动驾驶汽车也好像长了眼睛一样，能轻轻松松判断出，哪里是道路，哪里是树木。人脸识别技术，也让我们实现了刷脸支付(fù)。

而(ér)这(zhè)一(yī)切(qiè)，都(dōu)离(lí)不(bù)开(kāi)一(yī)项(xiàng)技(jì)术(shù)——卷(juǎn)积(jī)神(shén)经(jīng)网(wǎng)络(luò)。这(zhè)项(xiàng)技(jì)术(shù)，就(jiù)像(xiàng) AI 的(de)眼(yǎn)睛(jing)。

想(xiǎng)了(le)解(jiě) AI 的(de)眼(yǎn)睛(jing)是(shì)怎(zěn)么(me)工(gōng)作(zuò)的(de)，我(wǒ)们(men)先(xiān)要(yào)看(kàn)一(yī)看(kàn)动(dòng)物(wù)的眼睛是怎么工作的。

从猫眼到 AI 眼(yǎn)：视(shì)觉(jué)神(shén)经(jīng)元(yuán)的(de)启(qǐ)示(shì)

20 世(shì)纪(jì) 50 到(dào) 60 年(nián)代(dài)，大(dà)卫(wèi)·休(xiū)伯(bó)尔(ěr)和(hé)托(tuō)斯(sī)坦(tǎn)·威(wēi)泽(zé)尔(ěr)对(duì)猫(māo)的(de)视(shì)觉(jué)进(jìn)行(xíng)了(le)研(yán)究(jiū)，他(tā)们(men)发(fā)现(xiàn)，在(zài)一(yī)幅(fú)画(huà)面(miàn)进(jìn)入(rù)猫(māo)的(de)视(shì)野(yě)之(zhī)后，猫大脑中负责视觉的神经元，被不同的东西激活了。

为了方便理解，我们看个例子。比如这样一幅画面，有的神经元对画面中物体的边缘线条非常感兴趣，会着重处理这些信息，有的神经元对大块的颜色比较敏感，更擅长处理这些信息。这些神经细胞一起工作，帮助生物识别各种复杂的图像。

埃德加·德加《去外省的赛马场》（At the Races in the Countryside）1869

这项研究，让大卫和托斯坦获得了 1981 年诺贝尔生理学或医学奖，也启发了人工智能领域一个非常重要的算法，卷积神经网络。

在 1980 年代，日本科学家福岛邦彦设计了一个叫做 Neocognitron 的模型，用来识别日文手写字符，Neocognitron 中有不同的“层”，用来提取对不同的信息，最后综合这些信息对识别到的字符进行判断。

这启发了一位叫做扬·乐昆的法国科学家，扬·乐昆设计出了最早的卷积神经网络，并且基于卷积神经网络，建立了 LeNet 模型。这个模型在当时被很多银行用来识别手写字符。我们通过一个简单的例子，来看看卷积神经网络是如何工作的。

卷积神经网络：图像识别的幕后英雄

和神经网络相比，卷积神经网络在识别图片的时候，多了两个过程：卷积和汇聚。

卷积，这个过程，是由一个叫卷积核的东西完成的。

一张图片，在计算机(jī)的(de)眼(yǎn)里(lǐ)，其(qí)实(shí)是(shì)一(yī)个(gè)个(gè)像(xiàng)素(sù)点(diǎn)组(zǔ)成(chéng)的(de)矩(ju)阵(zhèn)，卷(juǎn)积(jī)核(hé)不(bù)是(shì)单(dān)独(dú)去(qù)考(kǎo)虑(lǜ)每(měi)一(yī)个(gè)像(xiàng)素(sù)点(diǎn)上(shàng)的(de)信(xìn)息(xi)，而是同时对某个区域，比如 3×3，5×5 的像素点信息进行处理。这样可以综合考虑相邻像素点的信息，更好地提取出更高级特征。

你可以想象一下，卷积核就像是一个观测员拿着有特定视野的望远镜去看一幅图片，把看到的信息处理记录(lù)下来。

而且我们可以设置有不同侧重点的观测员，以提取图片中的不同维度信息。比如，有的观测员着重提取颜色信息，有的着重提取物体边缘轮廓信息，有的专门提取某个特定形(xíng)状(zhuàng)的(de)信(xìn)息(xi)。最(zuì)后(hòu)综(zōng)合(hé)这(zhè)些(xiē)信(xìn)息(xi)，帮(bāng)助(zhù)神(shén)经(jīng)网(wǎng)络(luò)做(zuò)出(chū)更(gèng)好(hǎo)的(de)判(pàn)断(duàn)。

此(cǐ)外(wài)，卷(juǎn)积(jī)神(shén)经(jīng)网(wǎng)络(luò)还(hái)有(yǒu)一(yī)个(gè)重(zhòng)要(yào)的(de)步(bù)骤(zhòu)——汇聚（又称池化）。

图片往往是一个非常大的矩阵，汇聚能够把一块区域里的信息压缩成一个信息。假如，对一个 16×16 的矩阵，可以通过汇聚的方法，提取 2×2 格子里颜色最深一格的信息，就能把它变成这样的 8×8 的矩阵。如果再进行一次相同的汇聚，就可以(yǐ)把(bǎ) 8×8 的(de)矩(ju)阵(zhèn)，变(biàn)成(chéng) 4×4 的(de)矩(ju)阵(zhèn)。虽(suī)然图像汇聚后会有一些变化，但是依然保留了整个图像中的基本特征。

卷积和汇聚，让卷积神经(jīng)网(wǎng)络(luò)能(néng)够非常好地对图片信息进行提取，对于图像的学习处理效率上有了非常大的提升。

当然，卷积神经网络也会使用跟神经网络一样的反向传播算法，不断根据已知结果逆向调整神经网络中的参数，以做出越来越准确的判断。

那么(me)，AI如(rú)何(hé)改(gǎi)变(biàn)一(yī)些(xiē)行(xíng)业(yè)的(de)生(shēng)态(tài)？接(jiē)下(xià)来(lái)的(de)几(jǐ)集中(zhōng)，我(wǒ)们(men)将(jiāng)一(yī)同(tóng)探(tàn)究(jiū)。

策(cè)划制作

本文为-创作培育计划作品

出品(pǐn)｜中(zhōng)国(guó)科(kē)协(xié)科(kē)普(pǔ)部(bù)

监(jiān)制(zhì)｜中(zhōng)国(guó)科(kē)学(xué)技(jì)术(shù)出(chū)版(bǎn)社(shè)有(yǒu)限(xiàn)公(gōng)司(sī)、北(běi)京(jīng)中(zhōng)科(kē)星(xīng)河(hé)文化(huà)传(chuán)媒(méi)有(yǒu)限(xiàn)公(gōng)司(sī)

作(zuò)者(zhě)丨(gǔn)北(běi)京(jīng)云御纪文化传播有限公司

审核丨秦曾昌北京航空航天大学自动化科学与电气工程学院副教授

策划丨符思佳

责编丨符思佳

本文封面图片及文内图片来自版权图库

转载使用可能引发版权纠纷

官方网站-首页

案例搜索

拍照就能识别万物，AI是怎么看“懂”图片的？