卷积神经网络(CNN)主要用于模式识别和物体分类。利用CIFAR网络,可以对图像中的物体、比如猫、房屋或自行车等进行分类,或进行简单的语音模式识别。通过训练这些神经网络可以解决上述应用。然而,该如何训练这些神经网络呢?

本文是关于卷积神经网络(CNN)特性和应用的系列文章的第二篇,CNN主要用于模式识别和物体分类。在第一篇《人工智能与卷积神经网络》中,我们介绍了在微控制器中执行经典线性程序与卷积神经网络的区别及其优势。讨论了利用CIFAR网络对图像中的猫、房屋或自行车等物体进行分类,或进行简单的语音模式识别。本文将介绍如何训练这些神经网络来解决问题。

神经网络的训练过程

CIFAR网络由不同层的神经元组成,如图1所示。32×32像素的图像数据呈现给网络并经过网络各层。CNN的第一步是检测和研究待区分物体的独有特征和结构,为此需要使用到滤波器矩阵。虽然设计人员对诸如CIFAR的神经网络进行了建模,但这些滤波器矩阵最初仍是未确定的,网络在此阶段仍无法检测模式和物体。

提高准确性或减小损失函数:这一过程被称为神经网络训练。对于常见应用来说,在开发和测试过程中需要对网络进行一次训练,之后就可以正常使用了,不需要再调整参数。如果系统正在对熟悉的物体进行分类,则无需进行额外的训练。只有当系统需要对全新的物体进行分类时,才有必要进行训练。

图1:CIFAR CNN架构。

训练网络需要训练数据,之后再使用类似的数据集来测试网络的准确性。例如,在我们的CIFAR-10网络数据集中,数据是十个对象类别中的一组图像:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。但在训练CNN之前,必须对这些图像进行命名,这也是整个人工智能应用开发过程中最复杂的部分。本文将要讨论的训练过程,是根据反向传播原理进行的;连续向网络展示大量图像,同时每次传达一个目标值。该例中,这个值就是相关的对象类别。每次显示图像时,都会对滤波器矩阵进行优化,使对象类别的目标值和实际值相匹配。完成这一过程后,网络就能在图像中检测出它在训练过程中没有看到的物体。

图2:由前馈和反向传播组成的训练环路。

过拟合和欠拟合

在神经网络建模过程中,经常会产生神经网络应该有多复杂的问题。也就是说,它应该有多少层,或者说它的滤波器矩阵应该有多大。这个问题没有简单的答案。与此相关,讨论网络的过拟合和欠拟合也很重要。过拟合是模型过于复杂与参数过多的结果。不过,可以通过比较训练数据损失和测试数据损失,由此来判断预测模型与训练数据的拟合程度,进而判断是过低还是过高。如果在训练过程中损失较低,而当网络遇到从未见过的测试数据时损失会过度增加,就充分说明网络已经记住了训练数据,而不是泛化模式识别。在网络参数存储空间过大或卷积层过多的情况下,才是导致这种情况的主要原因。在这种情况下,应缩小网络规模。

损失函数和训练算法

学习分两步进行。第一步,向网络展示一幅图像,然后由神经元网络对图像进行处理,生成输出向量。输出向量的最大值,代表检测到的物体类别,比如该例子中的狗,在训练场景中不必非要正确。这一步骤被称为前馈。

输出端产生的目标值与实际值之间的差值称为损失,相关函数为损失函数。损失函数中包括网络的所有元素和参数。神经网络学习过程的目标,是以最小化损失函数的方式来定义这些参数。这种最小化是通过一个过程来实现的。在这个过程中,输出端产生的偏差(损失=目标值减去实际值)通过网络的所有组件向后反馈,直到到达网络的起始层。这部分学习过程也被称为反向传播。

这样,在训练过程中,就形成了一个以阶梯方式确定滤波器矩阵参数的循环。这种前馈和反向传播的过程一直重复进行,直到损失值降到预先确定的阈值以下。

优化算法、梯度和梯度下降法

为了说明该训练过程,图3显示了一个仅由x和y两个参数组成的损失函数,而z轴对应的是损失值。函数本身在这里仅用于说明,并不起实际作用。如果仔细观察三维函数图,就会发现该函数既有全局最小值,也有局部最小值。

可以采用大量的数值优化算法来确定权重和偏差。最简单的算法是梯度下降法。梯度下降法的基本思想是从随机选择的损失函数起点出发,利用梯度逐步寻找通向全局最小值的路径。梯度作为一种数学运算符,描述了一个物理量的变化过程。在损失函数的每一点上,它都会产生一个向量,也称为梯度向量,指向函数值变化最大的方向。向量的幅度与变化量相对应。在图3所示的函数中,梯度向量指向右下方某处的最小值(红色箭头)。由于表面平坦,所以幅度较小。在靠近峰值的更远区域,情况会有所不同。那里的向量(绿色箭头)会陡然向下,并且由于起伏较大,梯度向量的幅度也较大。

图3:使用梯度下降法到达目标的不同路径。

梯度下降法是从任意选择的一个点开始,迭代寻找进入波谷的最陡下降路径。这意味着,优化算法会计算起点的梯度,然后朝着最陡的下降方向先迈出一小步。在这个中间点,梯度被重新计算,进入波谷的路径继续延伸。这样,就形成了一条从起点到波谷中某一点的路径。这里的问题在于,起点并不是预先确定的,而是必须随机选择的。在二维地图中,细心的读者会把起点放在函数图的左侧。这将确保(例如蓝色)路径的终点位于全局最小值处。其他两条路径(黄色和橙色)要么更长,要么在局部最小值处结束。由于优化算法必须优化的不仅仅是两个参数,而是成百上千个参数,因此很快就会发现,起点的选择只能是偶然正确的。在实践中,这种方法似乎无济于事。这是因为根据所选起点的不同,路径可能很长,训练时间也可能很长,或者目标点可能不在全局最小值上,在这种情况下,网络的准确性就会降低。

因此在过去几年中,人们开发了许多优化算法,旨在绕过上述两个问题。其中包括随机梯度下降法、动量法、AdaGrad、RMSProp和Adam等算法。因为每种算法都有特定的优缺点,故实际采用的算法由网络开发人员决定。

数据训练

如前所述,在训练过程中,会为网络提供标有正确对象类别(如汽车、轮船等)的图像。在该示例中,采用了已有的CIFAR-10数据集。在实践中,人工智能的应用可能不仅局限于识别猫、狗和汽车。例如,如果必须开发一种新的应用来检测生产过程中螺丝钉的质量,那么也必须使用好螺丝钉和坏螺丝钉的训练数据来训练网络。创建这样一个数据集,可能会非常费力和费时,通常也是开发人工智能应用最昂贵的一步。一旦数据集编译完成后,就会被分为训练数据和测试数据。如前所述,训练数据用于训练,测试数据用于在开发过程的最后阶段检查受训网络的功能。

(原文刊登于EE Times姊妹网站Embedded,参考链接:Training convolutional neural networks,由Franklin Zhao编译。)

本文为《电子工程专辑》2024年4月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里

责编:Franklin
阅读全文,请先
您可能感兴趣
RISC-V 在新兴应用中具有意义,因为这些领域的开发人员尚未拥有现成的 Arm 产品。人工智能的兴起、用例和功能的增加意味着许多新领域正在萌芽,而RISC-V在所有这些领域都具有潜力……
此次测评首次引入人类学生熟悉的学科测试,让AI考生和三年级到高三学段的人类考生平均水平一较高下。“文强理弱”、简单题目反而错误率高等大模型普遍存在的短板集中展现在大众面前……
哈戈谷对于8英寸晶圆结构性需求逆风和12英寸扩张可能带来的折旧负担持谨慎态度。这种情况下,虽然部分产品有机会逐步转向12英寸厂生产,但短期内仍然面临挑战。
从技术角度看,1c nm DRAM相比于前一代的1b nm DRAM,将带来更高的密度和能效改进。这对于提升HBM4内存的性能和降低功耗具有重要意义。
AI PC现在是个热词,连苹果都打算入局了,6月份的WWDC上大概就能见到。本文尝试盘点AI PC的竞争现状与实质...
VC6801是一款高度集成、高性能和低功耗的人工智能SoC。采用12纳米工艺技术,融合了四核Arm Cortex-A55 CPU,并配备……
工程师对某个方案的选取,需要考虑系统性能,器件参数,成本等多个因素。HP1010 的测试数据证实,图腾柱拓扑在收获高效的同时, 可以安全可靠的运行;结合特有的控制算法,电流互感器方案简洁灵活,并且CBC保护性能出色。
2024年第一季度全球云基础设施服务支出同比增长21%,达到798亿美元,增加134亿美元。三大云提供商——AWS、微软Azure和谷歌云——合计增长了24%,占总支出的66%。
当前,5G发展已行至中场,5G Advanced正在加速落地,不仅将进一步释放5G全部潜能,还将为6G奠定技术基础,加速推动未来十年的创新。
Ampere Computing® 今天正式发布年度战略和产品路线图更新,重点介绍 Ampere 在可持续、高效能计算的云和人工智能计算方面的持续创新和发明。
“穷则关税壁垒、达则自由贸易”这个铁律正在双向瓦解。占据全球半导体第一高地的美国,正频繁使用出口禁令、实体清单、关税壁垒等花样百出的手段进行自我守护;而处于全球半导体“第三世界”的中国,似乎也忘记了这
NVIDIA 带来知乎精彩问答甄选系列,将为您精选知乎上有关 NVIDIA 产品的精彩问答。本期是解读 NVIDIA GTC 2024 发布的新技术第五期。以下四个知乎甄选问答将为您带来更多关于 NV
来源:江苏扬州维扬经济开发区5月16日,上午,探路者集团探路者扬州项目一期工程在维扬经济开发区正式开工;下午,深圳康盈半导体与维扬经济开发区签订了高速固态存储智能制造基地项目进园协议。本次开工的探路者
来源:德国之音据报道,中国与西方国家的贸易争端进一步升级:5月19日,中国商务部发布公告,对原产于欧盟、美国、台湾地区、日本的进口共聚甲醛进行反倾销立案调查。这种化工产品广泛应用于汽车配件、电子电器、
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来----来源: 光电读书申明:感
根据中国台湾业界透露,苹果公司首席运营官杰夫·威廉姆斯(Jeff Williams)日前低调前往中国台湾,访问台积电,获得台积电总裁魏哲家亲自接待。消息称双方讨论话题包括苹果发展自研人工智能(AI)芯
2024年5月16日,熙泰科技(眉山)2024年微显示模组项目开工仪式在联东U谷·成眉合作数字产业园隆重举行。天府新区眉山党工委副书记、管委会常务副主任余敏,天府新区眉山党工委委员、管委会副主任许晓飞
当前,整车电子电气架构正在加速向中央计算+区域控制架构演进,汽车智能化正式进入2.0时代。根据《高工智能汽车研究院》监测的数据显示,目前,包括理想、小鹏、广汽埃安、零跑在内的国内多个自主品牌已经开发全
NOA降本,大势所趋。5月15日,蔚来旗下第二品牌乐道(英文名“ONVO”)在上海正式发布,首款量产交付车型乐道L60对标特斯拉Model Y,面向20-30万主流家庭用车市场,预计将于今年三季度上市
5月20日, Y200系列新品发布会推出vivo Y200,vivo Y200 GT以及vivo Y200t三款新品,全系标配6000mAh大电池。敏锐洞察到用户对长续航和轻薄耐用的使用刚需,本次新品