意识到没有必要精确复制神经元,再加上DVS摄影机的开发,是今日神经形态视觉系统背后的驱动力。不过现在虽然已经有系统问世,在我们拥有可供商用、完全像是人类的计算机视觉技术之前,还有很长的路要走。

计算机视觉是否会再次自我重塑?美国匹兹堡大学(University of Pittsburgh)眼科教授,同时兼任卡内基美隆大学机器人研究所(CMU Robotics Institute)教授的Ryad Benosman认为将会如此。

Ryad Benosman (来源:匹兹堡大学)

身为事件导向(event-based)视觉技术创始人之一,Benosman预期神经形态(neuromorphic)视觉──即事件导向摄影机,会是计算机视觉的下一个发展方向。“计算机视觉已经被重塑了很多很多次;”他表示:“我至少已经看过该技术重塑两次,从无到有,从零开始。”

Benosman指出,在1990年代,计算机视觉从带有一点摄影测量法(photogrammetry)的图像处理,转变为以几何学(geometry)为基础的方法;然后今日则是快速转向机器学习。尽管发生了这些变化,现代计算机视觉技术主要仍以图像传感器为基础——即产生出类似于人眼所见图像的照相机/摄影机(camera)。

根据Benosman的说法,在图像感测技术典范不再有效之前,它会阻碍其他替代技术的创新;然而其效力因为GPU等高性能处理器的发展而延长,也延迟了寻求替代解决方案的需要。“我们为什么让图像(image)成为计算机视觉目标?这是在一开始就很难回答的问题,”他表示:“我们没有理由使用图像,只是因为历史性的推动力;甚至在相机/摄影机发明之前,图像就拥有那样的动力。”

计算机视觉不该是摄影机?

自从针孔相机(pinhole camera)在公元前五世纪问世以来,拍摄图像的相机/摄影机就一直存在。1500年代,艺术家们打造出一个房间大小的装置,好在画布上追踪一个人、或者室外风景的图像。多年之后,那些纪录图像的画布被替换为底片,而像是数码相机(digital photography)等创新技术,最终使得摄影机很轻易成为现代计算机视觉技术的基础。

然而Benosman认为,以摄影机为基础的计算机视觉技术效率极低。他以一个中世纪城堡的防御系统为比喻:围绕着城墙部署一圈卫兵,从四面八方监看是否有敌人接近,并叫一个鼓手稳定地击鼓,每打出一个鼓点就让所有卫兵大声喊出他们所看到的;在所有的呼喊声中,有多容易能听到其中一个卫兵在远方的森林边缘发现敌人?

在21世纪,鼓声就是电子频率信号,卫兵则是像素(pixel)——有大量数据被创造出来,并且必须在每个频率周期被检验,这意味着存在大量冗余信息和需要大量不必要的运算。

“人们正在消耗如此大的能量,用一整个城堡的运算能力来保护自己;”Benosman形容,如果侦测到一个有趣的事件,也就是敌人,“你必须绕一大圈收集无用的信息,到处都有人在呼喊,所以要有很大的带宽…你可以想象有一座复杂的城堡,所有卫兵的声音都必须被听到。”

进入到神经形态视觉时代,该技术的基本想法是受到生物系统运作方式的启发,即侦测周遭场景动态的变化,而不是持续分析整个场景。在前面的城堡比喻中,这意味着让卫兵保持安静,直到看见让他们感兴趣的东西,然后喊出他们的位置以发出警报──在电子版本中,这代表让个别像素决定它们是否看到关系重大的东西。

“像素可以自行决定它们应该发送什么信息,而不是获取系统性信息来寻找有意义的信息-特征(feature),”他说:“这就是与众不同之处。”相较于与固定频率的系统性信息获取,这种事件导向方法可以大幅节省电力并降低延迟。

“你想要一些更具适应性的东西,这就是事件导向视觉的相对性变化可以提供的,适应性的信息获取频率;”Benosman表示:“当你观察振幅变化(amplitude change),如果某个东西动得很快,就会得到很多样本;而如果有的东西没有改变,得到的样本几乎为零。所以你是根据场景动态来调整信息获取频率,这就是该技术带来的好处,以及为什么它是好设计。”

Benosman是在2000年进入神经形态视觉领域,深信先进的计算机视觉技术可能永远无法发挥作用,因为使用图像不是正确的方法。他指出:“最大的转变是说我们可以在没有灰阶、没有图像的情况下实现视觉,这在2000年底那时候被视为异端邪说——完全是在胡说八道。”

而因为Benosman所提出的技术——也就是今日事件导向感测的基础——是如此不同,导致他将论文投稿至当时最重要的IEEE计算机视觉期刊,还没经过审查就被拒绝了。实际上,直到2008年动态视觉传感器(DVS)的开发,才让该技术开始取得动力。

一些Prophesee的客户应用,展现摄影机和DVS传感器输出的差异。

(来源:Prophesee)

神经科学的启发

神经形态技术是受到生物系统启发,包括终极计算机──即人脑,以及其操作数件──即神经元(neurons)。但问题是,没有人完全理解神经元是如何运作的,虽然我们知道神经元会对被称为棘波(spikes)的馈入电子信号起作用,但直到最近,研究人员对神经元的特征描述仍相对草率,认为只有棘波数量重要;这种假设持续了几十年,不过近期研究结果证明,棘波出现的时机绝对关键,人脑的架构会在这些棘波中产生延迟,以进行信息编码。

今日的棘波神经网络(spiking neural network)就是仿真人脑中的棘波信号,是真实事物的简化版本——通常是棘波的二进制表示。Benosman解释:“当我收到一个1,我就醒来,我运算,我睡觉;”而现实世界要复杂得多,当棘波到来时,神经元开始对随着时间变化对棘波值计算积分;神经元也会漏电(leakage),这意味着其结果是动态的。

人脑大约有50种不同类型的神经元,伴随着50种不同的积分组合;今日的电子版本缺少积分的动态途径、神经元之间的连结,还有不同的权重与延迟。“问题在于要打造出有效的产品,你无法模仿所有的复杂性,因为我们不了解它;”他表示:“如果我们有完善的人脑理论,我们可望解决这个问题——可惜我们就是知道的不够多。”

Bensoman目前主持了一个独特的实验室,致力于了解大脑皮质运算背后的数学,目标是打造新的数学模型,并将其复制为硅组件;他的研究包括直接监测来自真实视网膜的棘波。不过就目前来看,他反对尝试如实复制生物神经元,并将之形容为一种过时的方法。

“以硅组件来复制神经元的想法之所以出现,是因为人们看着晶体管也看到了一个看起来像真正神经元的机制,所以在一开始在背后有这样的一些想法;”他表示:“我们没有细胞,我们有硅组件,你需要适应你的运算基板,而不是反过来…如果我知道我要算什么而且我有芯片,我可以优化这个方程式,并且以最低的成本、最低的功耗与最低的延迟来执行。”

处理能力

意识到没有必要精确复制神经元,再加上DVS摄影机的开发,是今日神经形态视觉系统背后的驱动力。不过现在虽然已经有系统问世,在我们拥有可供商用、完全像是人类的计算机视觉技术之前,还有很长的路要走。

初期版本的DVS摄影机具备“粗大”的像素,是因为该光电二极管本身周遭的零件,显著地降低了填充因子(fill factor)。虽然对开发这类摄影机的投资加速了该技术的进展,但Benosman也明确表示,今日的事件导向摄影机只是对早在2000年就开发的原始实验装置之改良版。

法國新創公司Prophesee和Sony合作開發的DVS感測器評估套件;BenosmanProphesee的共同創辦人。 (來源:Prophesee)

由Sony、Samsung与Omnivision开发的尖端DVS摄影机,拥有微小的像素,融合了3D堆栈等先进技术并降低了噪声。Benosman担心的是,今日被使用的传感器类型能否成功地扩大规模;”问题在于一旦增加像素数量,就可以取得大量数据,因为运作的速度仍然非常快,仍然可以实时处理。但是你会从太多的像素中得到太多的相对变化,这现在让所有人都想死,因为他们看到其潜力所在,却没有适当的处理器来支持。”

通用型神经形态处理器远远落后于它们的DVS摄影机同伴,一些大厂的开发工作──如IBM的Truenorth以及Intel的Loihi──仍在进行中。Benosman表示,适当的处理器搭配适当的传感器,就会是无敌的组合;”现在的DVS传感器速度极快,占用带宽超低,且支持高动态范围,因此能看室内、也能看室外;这是未来趋势…它会起飞吗?绝对会!”

他的结论是:”谁能可以开发出适当处理器并提供完整的堆栈,谁就赢了;因为那样的组合将会是天下无敌。”

本文同步刊登于台湾版《电子工程专辑》杂志20226

责编:Judith Cheng

(参考原文:A Shift in Computer Vision is Coming,By Sally Ward-Foxton)

责编:Amy.wu
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
从10多年前进入媒体行业,最初我的主要工作用机是尼康D300和D7000,尤其D300陪伴了我挺多年的。这俩相机都是单反数码相机。从业期间,我经手过的单反还包括D3、D4、D7100。最初工作那些年,我始终在找寻某种形态更轻盈的相机……
在众多领域中,医疗也是“元宇宙”概念最早探索的行业之一。尽管尚处于萌芽阶段,但眼下,元宇宙医疗已经被视为数字医疗演进的下一个里程碑,它将掀起的是一场重构升级当下医疗健康业务的浪潮。医疗“元宇宙”本质就是运用数字孪生、虚拟现实/增强现实、人工智能等前沿技术开展的面向医疗行业数字化转型和服务模式创新的探索……
2021年是激光雷达“上车”元年。随着智能驾驶技术不断演进,未来几年激光雷达将被各大车企采用。这家具备领先的激光雷达技术优势的德国企业,将要在激光雷达装配率极速上升的“黎明前夜”落幕吗?
从几位科技博主对iPhone 14的拆机视频可以发现,这一代的手机回归了当年iPhone 4三明治时代的拆机方式,整机是从可拆卸式玻璃背板位置开启。这样一来换后盖的成本大大降低,但 iPhone 14 Pro 系列仍需要从正面屏幕处开启。同时为了适应灵动岛设计,Pro系列的前置摄像模组也做出了改变……
在AI算力突破传统成像系统天花板的计算革命下,AI ISP技术也将不断发展,其算力也将越来越强,其产品成本将不可避免的越来越低,拍摄距离也将越来越远,效果也会越来越好。而一直被大众所不理解和诟病的特斯拉的全摄像头视觉技术,或许不久将成为现实。
本文将介绍 USB 3.1 以及第一代与第二代 USB 3.1 之间的差异及两者能给机器视觉开发人员带来的实际益处。 USB Implementers Forum 还针对 USB 3.2 标准发布了相关规范,该标准使 USB 3.1 吞吐量加倍。
德州仪器首席执行官Rich Templeton当选SIA副主席
由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
- 该扩建项目将助力 Soitec 巴西立(Pasir Ris)工厂实现年产能翻番,300mm SOI(绝缘体上硅)晶圆产能将达到约 200 万片/年。
- 新加坡工厂产能提升是 Soitec 战略增长计划的一部分,可满足全球日益增长的晶圆需求,也是提升法国总部产能的补充举措。
- 该项目扩建面积为 45,000 平方米,并将助力 Soitec 到 2026 年实现新加坡员工总数翻倍,达到逾 600 名员工。
本文介绍了目前比较成熟的已经得到广泛应用的三种信道建模方法并分析了各自的优缺点。坤恒顺维公司可以提供上述三种完整的信道建模软件。优异的信道模型对于准确预测无线电波的传播特性,支持无线通信系统的架构设计极其重要,好的信道建模方法对于用户方便高效的测试验证通信系统的性能更是不言而喻。因此在具体实际应用种,应综合考虑具体环境、条件以及要求有针对性的选择最符合实际测试的方法以提高测试效率。
尊敬的行业同仁:亚化咨询最新推出《中国SiC月报2022》,主要包含:三代半导体行业评论(月度更新)三代半导体行业政策、市场动向(月度更新)行业重大动向(月度更新)SiC项目建设动态(月度更新)SiC
今天有空,在GitHub翻了各种库,挑出下面有意思的库~Open.HD 使用现成的商业 (COTS) WiFi 适配器,但它不会在标准 WiFi 模式下运行它们,这不适合低延迟或超长距离视频传输。相反
众所周知,随着企业转向比集中式云数据中心更低的延迟、更安全和私密的处理,网络边缘计算持续快速增长。市场上正部署数十亿的网络边缘计算设备,而且随着时间的推移,它们会变得越来越先进。机器学习和深度神经网络
你没看错,张飞实战电子"内部培训视频打包72集",现在限时限量超低价出售。        只要满足以下2个简单的条件,即可0.1元购买       1、对硬件电路设计/开关电源课程有强烈需求     
来源:《中国半导体大硅片年度报告2022》亚化咨询数据显示,2021年全球半导体硅片市场快速增长,整体销售额达157.44亿元,过滤掉交叉部分仅计算销售到IDM/Fab部分的话(过滤部分为销售给纯外延
芯片供应商骗局近期频频爆雷,假货、跑路、维权无门,两眼一抹黑怎么办?【超人投票】告诉你答案,火眼识别靠谱供应商。【超人投票】是芯片超人在2017年推出的,帮助市场上的朋友找到靠谱供应商的决策工具。5年
化学机械抛光(CMP)是实现晶圆全局平坦化的关键工艺。CMP工艺贯穿硅片制造、集成电路制造与封装测试环节。抛光液和抛光垫是CMP工艺的核心耗材,占据CMP材料市场80%以上。 鼎龙股份、华海清科为代表
中国北京 – 2022 年 12 月13 日– 移动应用、基础设施与航空航天、国防应用中 RF 解决方案的领先供应商 Qorvo®, Inc.(纳斯达克代码:QRVO)将在 CES®2023 (#CE
如何看待中国自主汽车品牌冲击中高端市场?背景:11月,比亚迪官宣,旗下高端汽车品牌定名为“仰望”。11月16日,在比亚迪第300万辆新能源汽车下线仪式上,比亚迪集团董事长王传福在表示,明年将推出一款专
来自公众号:青塔数据来源:US News官网US News发布2023世界大学排行榜,涉及90多个国家,超过40个学术专业领域。今年US News世界大学排名主要指标权重如下:全球研究声誉12.5%,