广告

利用深度学习和计算机视觉分析脸部表情

时间:2017-07-20 作者:Gordon Cooper,Synopsys嵌入式视觉产品营 阅读:
深度学习技术对于降低计算机视觉识别和分类的错误率展现出巨大的优势。在嵌入式系统中实施深度神经网络有助于机器透过视觉解读脸部表情,并达到类似人类的准确度。
广告
ASPENCORE

辨别脸部表情和情绪是人类社会互动早期阶段中一项基本且非常重要的技能。人类可以观察一个人的脸部,并且快速识别常见的情绪:怒、喜、惊、厌、悲、恐。将这一技能传达给机器是一项复杂的任务。研究人员经过几十年的工程设计,试图编写出能够准确识别一项特征的计算机程序,但仍必须不断地反复尝试,才能识别出仅有细微差别的特征。qkgEETC-电子工程专辑

那么,如果不对机器进行编程,而是直接教机器精确地识别情绪,这样是否可行呢?qkgEETC-电子工程专辑

深度学习(deep learning)技术对于降低计算机视觉(computer vision)识别和分类的错误率展现出巨大的优势。在嵌入式系统中实施深度神经网络(见图1)有助于机器透过视觉解读脸部表情,并达到类似人类的准确度。
20170719_Synopsys_TA31P1
图1:深度神经网络的简单例子qkgEETC-电子工程专辑

神经网络可经由训练而识别出模式,而且如果它拥有输入输出层以及至少一个隐藏的中间层,则被认为具有“深度”识别能力。每个节点从上一层中多个节点的加权输入值而计算出来。这些加权值可经过调整而执行特别的影像识别任务。这称为神经网络训练过程。qkgEETC-电子工程专辑

例如,为了训练深度神经网络识别面带开心笑脸的照片,我们向其展示开心的图片作为输入层上的原始数据(影像像素)。由于知道结果是开心,网络就会识别图片中的模式,并调整节点加权,尽可能地减少开心类别图片的错误。每个显示出开心表情并带有批注的新图片都有助于优化图片权重。藉由充份的输入信息与训练,网络可以摄入不带标记的图片,并且准确地分析和识别与开心表情相对应的模式。qkgEETC-电子工程专辑

深度神经网络需要大量的运算能力,用于计算所有这些互连节点的加权值。此外,数据存储器和高效的数据移动也很重要。卷积神经网络(CNN)(见图2)是目前针对视觉实施深度神经网络中实现效率最高的先进技术。CNN之所以效率更高,原因是这些网络能够重复使用图片间的大量权重数据。它们利用数据的二维(2D)输入结构减少重复运算。
20170719_Synopsys_TA31P2
图2:用于脸部分析的卷积神经网络架构(示意图) qkgEETC-电子工程专辑

实施用于脸部分析的CNN需要两个独特且互相独立的阶段。第一个是训练阶段,第二个是部署阶段。qkgEETC-电子工程专辑

训练阶段(见图3)需要一种深度学习架构——例如,Caffe或TensorFlow——它采用中央处理器(CPU)和绘图处理器(GPU)进行训练计算,并提供架构使用知识。这些架构通常提供可用作起点的CNN图形范例。深度学习架构可对图形进行微调。为了实现尽可能最佳的精确度,可以增加、移除或修改分层。
20170719_Synopsys_TA31P3
图3:CNN训练阶段qkgEETC-电子工程专辑

在训练阶段的一个最大挑战是寻找标记正确的数据集,以对网络进行训练。深度网络的精确度高度依赖于训练数据的分布和质量。脸部分析必须考虑的多个选项是来自“脸部表情识别挑战赛”(FREC)的情感标注数据集和来自VicarVision (VV)的多标注私有数据集。qkgEETC-电子工程专辑

针对实时嵌入式设计,部署阶段(见图4)可实施在嵌入式视觉处理器上,例如带有可编程CNN引擎的Synopsys DesignWare EV6x嵌入式视觉处理器。嵌入式视觉处理器是均衡性能和小面积以及更低功耗关系的最佳选择。
20170719_Synopsys_TA31P4
图4:CNN部署阶段qkgEETC-电子工程专辑

虽然标量单元和向量单元都采用C和OpenCL C(用于实现向量化)进行编程设计,但CNN引擎不必手动编程设计。来自训练阶段的最终图形和权重(系数)可以传送到CNN映射工具中,而嵌入式视觉处理器的CNN引擎则可经由配置而随时用于执行脸部分析。qkgEETC-电子工程专辑

从摄影机和影像传感器撷取的影像或视讯画面被馈送至嵌入式视觉处理器。在照明条件或者脸部姿态有显着变化的识别场景中,CNN比较难以处理,因此,影像的预处理可以使脸部更加统一。先进的嵌入式视觉处理器的异质架构和CNN能让CNN引擎对影像进行分类,而向量单元则会对下qkgEETC-电子工程专辑

一个影像进行预处理——光线校正、影像缩放、平面旋转等,而标量单元则处理决策(即如何处理CNN检测结果)。qkgEETC-电子工程专辑

影像分辨率、画面更新率、图层数和预期的精确度都要考虑所需的平行乘积累加数量和性能要求。Synopsys带有CNN的EV6x嵌入式视觉处理器采用28nm工艺技术,以800MHz的速率执行,同时提供高达880MAC的性能。qkgEETC-电子工程专辑

一旦CNN经过配置和训练而具备检测情感的能力,它就可以更轻松地进行重新配置,进而处理脸部分析任务,例如确定年龄范围、识别性别或种族,并且分辨发型或是否戴眼镜。qkgEETC-电子工程专辑

总结qkgEETC-电子工程专辑

可在嵌入式视觉处理器上执行的CNN开辟了视觉处理的新领域。很快地,我们周围将会充斥着能够解读情感的电子产品,例如侦测开心情绪的玩具,以及能经由识别脸部表情而确定学生理解情况的电子教师。深度学习、嵌入式视觉处理和高性能CNN的结合将很快地让这一愿景成为现实。qkgEETC-电子工程专辑

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。
qkgEETC-电子工程专辑

qkgEETC-电子工程专辑

ASPENCORE
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 2020年Silicon 100榜单出炉! 几乎每年EETimes都会公布一份上一年吸引我们注意的电子和半导体初创企业名单,2020年推出的是EETimes的第20个榜单,这一次我们做了个“大动作”……
  • 美国游说欧洲禁用中国产安检设备,改用美国产 继鼓动全球其他国家禁用华为通信设备后,美国政府近期继续向中国挥舞“不公平贸易行为”的大棒,但实际情况正是美国在用不公平手段对待中国高科技企业。近日,他们又对中国最大的安检设备供应商同方威视(Nuctech)下手了,这场行动由美国国家安全委员会和一些美国机构领导,他们认为同方威视在欧洲不断扩大的业务,对西方安全和美国企业构成了威胁……
  • 美国裁定天津大学张浩窃取FBAR滤波器机密等3项罪名成 6月27日,天津大学教授张浩被美国加州圣何塞法院裁定窃取商业机密罪和经济间谍罪成立,最终判决将在8月31日发布。张浩将面临最高10至15年监禁,以及每项罪名分别最高25万美元的罚款……
  • 智能车载电子领域中国CIS厂商的“芯”机遇 经过多年的发展,以及市场与技术的起伏,尽管自动驾驶技术依然停留在≤L3,还没有完全跨越进入L4,然而这种状况并没有阻止自动驾驶成为人类驾驶技术的展望,相反,哪怕受到疫情等全球因素的影响,科技行业对于技术的创新与推动依然充满着激情与信心,特别是在其核心领域之一:CIS(CMOS Image Sensor)。
  • 经营84年不敌智能手机,奥林巴斯退出相机业务 6月24日,日本老牌光学大厂奥林巴斯(Olympus)官方发布的公告称,将完全退出相机市场,并表示将在今年9月30日之前达成协议,并于今年12月31日之前完成交易。奥林巴斯创立于1919年,1936年,奥林巴斯推出Zuiko系列相机,正式打入相机市场,至今已经营了84年。在于手机拍照如此方便,成像质量可达到较高水平的今天,给数码相机留下的空间越来越小……
  • 新冠疫情下汽车行业崩了,自动驾驶呢? 下滑的汽车销售量与营收所导致的车辆研发资金减少,将产生显著的影响;不过影响程度在车厂、汽车零组件供应商、高科技业者与资本投资业者(VC)之间会有所不同...
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了