广告

深入浅出讲解『人工神经网络』的原理和运行机制

时间:2022-05-05 17:07:22 作者:Challey 阅读:
深度学习,(人工)神经网络等概念在随处可见的人工智能下现在变得耳熟能详,那么,人工神经网络的原理是什么?它的运行机制是怎样的,涉及到了哪些高深的“概念”?其实很简单,本文将用深入浅出的方法为您介绍神经网络,绝对让您也能轻松了解它!(如果您很在意结果,可以先看末尾的小结,再回过头来一步一步看)。
广告

深度学习,(人工)神经网络等概念在随处可见的人工智能下现在变得耳熟能详,那么,人工神经网络的原理是什么?它的运行机制是怎样的,涉及到了哪些高深的“概念”?其实很简单,本文将用深入浅出的方法为您介绍神经网络,绝对让您也能轻松了解它!(如果您很在意结果,可以先看末尾的小结,再回过头来一步一步看)。

哪些地方用到了人神经网络?

很简单,我们日常用到的语音助手,譬如苹果的Siri,阿里的天猫精灵、百度的小度,小米的小爱同学,谷歌语音助手,以及特斯拉等的自动驾驶等应用,它们看起来很复杂,都用到了深度学习的核心技术,但其实它们只不过是一个人工神经网络,而已。

人工神经网络(ANN:Artificial Neural Networks),最重要的是能够像人类一样不断的自我学习,如果不能学习进化,那么这样的“人工智能”就不能发展,这就是发明人工神经网络背后的深刻含义。

但是,归根结底,人工神经网络只不过是人类制造的神经网络。就像人的大脑一样,神经网络是由一个一个神经元组成的。这就是感知器。

感知器

要了解神经网络,我们首先要了解单个神经元,它是神经网络中的最小单元。

人类的单个神经元是从其他神经元或突触获取输入,在脑核内处理它们并将其发送给其他神经元。

同样的,人工神经网络具有类似于感知器的神经元的结构,它也是人工神经网络中最小的单元,它从输入层或其他感知器获取输入向量,在激活函数中处理它们,并将其发送给其他神经元,或者它也可以是最终的输入。

譬如,你一只手拿着冰冷的物体,另一只手拿着热的物体,看着一个让你哭泣的情感场景。你会先对哪一个做出反应,你会把手放在冷的物体上,还是把手从热的物体上移开,或者你会为情感场景哭泣?显然,您会将手从热物体上移开。你如何得到这些模拟?所有这些输入都被发送到神经网络,它会立即发送一个输出,将你的手移到热物体上,因为你已经用以前的经验训练自己不要接触热物体。热感的突触会更厚(这就是权重),这意味着它更重视热感。

同样的,感知器的输入也具有与每个输入相关的权重。这里的精妙之处在于,它会自动学习哪些权重应该更重要,类似于人类的自我学习。在将其发送到激活函数之前,每个输入乘以它的权重,将它们相加,然后将其传递给激活函数

关于感知器与逻辑回归的比较:(如果您对算法不感兴趣,Challey建议略过)

一个简单的逻辑回归可以表示为

其中 X 是输入向量 X = [x1, x2, x3, ...。, xn]

逻辑回归的高级概述是它试图找到一个超平面或线来分隔两种不同类型的类,并且 W 来自超平面,W = [w1, w2, w3, ... , wn]

b 是常数。Sigmoid 函数将加权和作为输入,并给出介于 0 到 1 范围内的输出。

如果您认为,感知器与逻辑回归非常相似。

如果激活函数是 sigmoid,则逻辑回归用感知器表示。

就这么简单。

但是我们的大脑中不仅有一个神经元。我们有许许多多的神经元连接在一起。这就是多层感知器(MLP)。

多层感知器 (MLP)

同样,人工神经网络也有一个相互连接的神经元网络,也称为多层感知器(MLP)。

我们使用 MLP 的原因可以从数学和生物两个角度来解释:

数学:当我们有一个像下面这样的复杂数学方程时,我们可以使用一个感知器进行 sin,另一个用于乘法等等。

生物:当我们试图模仿生物神经网络时,我们正在使用神经元网络。

MLP由一个具有输入向量大小的输入层组成,可以有许多隐藏层,每一层都可以被认为是一个感知器。我们知道每个感知器都会产生一个输出,这个输出可以作为其他感知器的输入。

最后,它有一个输出层,该层产生一个称为预测输出的输出。

如果所有隐藏层都有所有可能的连接,则称为全连接层。当一个ANN(人工神经网络)包含一个深层的隐藏层时,称为深度神经网络(DNN),而对 DNN 的研究就是我们经常听说的深度学习

“怎样自我学习”的生物学解释:

我们怎么知道当我们触摸一个热的物体时会很痛?在我们的童年时代,我们被告知不要触摸热的物体。通常我们不听。我们实际上触摸并感觉到疼痛,我们才知道我们不应该触摸热的物体。因此,我们通过实际操作来训练自己。

类似地,ANNs(人工神经网络们) 自己预测输出并将其与我们称之为错误的实际输出进行比较,并尝试它应该做些什么来减少错误。我们应该给 MLP 一些输入来训练,因为它不知道它是否正确地预测了输出,我们应该给它相应的输出。然后,它以尝试尽可能准确地预测输出的方式训练自己。

那么,机器是如何训练自己的呢? 

实例:

Challey发现,很多年前开始,谷歌发明了一个著名的上网验证:必须用鼠标一个一个指出给出的很多图片中,哪些是汽车才能通过验证进入下一步。下一次可能又变成问你:哪些是飞机或者轮船等等。

这就是典型的神经网络学习。只是,当时大部分人不知道这是谷歌在免费利用我们进行神经网络的纠错学习。

现在我们来探究:如何训练MLP(多层感知器)。

训练 MLP

训练 MLP 是寻找能够提供最佳输出的权重的过程。在此之前,我们先看下面的符号。

MLP 的符号

当我们向人工神经网络提供输入时,它会处理所有层并提供预测的输出。这称为前向传递。

现在对于输入,我们有 MLP 生成的输出和我们作为输入数据提供的实际输出。然后它找到预测输出和实际输出之间的差异。这可以被认为是一个错误。

然后它找到激活函数的每个输出的误差贡献。它对所有输出执行此操作,直到它从输出层到达输入层。这一步称为反向传播。

以下是权重更新的算法(如果不感兴趣可以略过Challey

对于所有权重,使用以下公式更新旧权重

更新权重的公式

其中 \Eta 是算法的学习率。

求导数,也就是最后一项叫做梯度。

它重复整个过程,直到找到最佳权重的新旧权重之间没有太大差异。

因此,为了找到贡献的错误,我们需要对激活函数进行微分计算。它将特别使用偏导数。由于权重很多,它应该进行多次微分计算。如果激活函数的微分很容易,那么它将加快这个过程。

在这里,Challey给大家做个微分的复习^_^

微分的中心思想是无穷分割它在数学中的表示是:由函数B=f(A),得到A、B两个数集,在A中当dx靠近自己时,函数在dx处的极限叫作函数在dx处的微分。微分是函数改变量的线性主要部分。

激活功能(激活函数)

有 3 种主流的激活功能:

Sigmoid 函数:当我们传递加权输入和时,它将会生成从 0 到 1 的输出。

Tanh 函数:当我们传递输入的加权和时,它会生成范围从 -1 到 +1 的输出。

ReLu 函数:如果输入的加权和小于零,则 Relu 的输出为 0,否则输出为输入的加权

如果你观察到这一点,所有三个函数都是可微的,除了 Relu 函数在零处不可微,但它的变化将克服这一点,而且这些很容易微分,因为微分可以以自身的形式表示。

但是这里有一个在 1990 年代后期多年来一直面临的问题:如果我们有深度神经网络,那么就会有很多层。如果有很多层,那么将涉及许多次导数的乘法。

假设我们有 20 层,如果我们使用 sigmoid 或 tanh 作为激活函数,它的值小于 1。为了计算梯度,我们需要找到每一层的导数并需要将它们相乘。多次乘以较小的值会导致非常小的值。因此,它无法更新具有较大值的权重。这将需要非常长的时间来收敛,这被称为消失梯度下降。

Relu 函数将克服这个问题,因为它将有零或 z,我们将其作为输入传递给函数,有时它可能会遇到称为死激活的问题,因为它导致输出为零,但对Relu稍作修改就能解决这个问题。

过拟合及怎样解决?

我们再举一个例子(实例):

一个班级有两个学生。我们进行样品测试。一个同学小明在某处找到了答案,然后他就记住了。另一个同学小李也找到了解决方案,但他的学习方式是,如果出现稍微修改的问题,他将能够解决它。在期末考试中,第一个同学小只有在相同的问题出现时表现更好,但第二个同学小李会解决任何类型的问题。

过拟合就像第一个同学小明一样,太过于依赖输入。

我们构建的神经网络是,我们提供测试数据,随着我们增加其中的层,它会记住每个输入的输出,当我们提供相同的测试数据时,它会完美地预测。但是,当我们给出稍微修改过的数据时,它无法像对看到的数据所预测的那样完美地预测。这称为过拟合。

最好的算法是:它将以相同的准确度预测可预见数据和不可预见数据。有一些技术可以为可预见和不可预见的数据获得相同的准确性。

怎样解决过拟合?

一种简单而强大的策略是 Dropouts。对于每个输入,我们随机选择 p% 的隐藏层激活函数,输入层中的输入,并使其在训练中处于非活动状态。在运行时,我们将它们全部设为活动状态,而不是按原样使用所有权重,而是将权重修改为 (1-p)*w,因为我们将每个权重随机删除 p 次。

当我们查看更新权重的公式时,

我们在偏导数的帮助下更新旧的权重。但是,在过程开始时,我们没有任何先前的权重,因为这是第一次。当我们在基本的编程中将任何变量初始化为 0 时,让我们用 0 初始化每个权重。

但是,将每个权重初始化为 0 意味着模型中的每个权重都学习了相同的东西,这是无效的。即使每层有数百个神经元,它的行为就像每层只有一个神经元。所以,我们需要一个新的策略来初始化权重。

怎样初始化权重?

一种简单的策略是使用具有良好方差的高斯分布初始化权重。

Xavier/Glorot 初始化:

Xavier / Glorot 初始化

它适用于 Sigmoid 激活函数初始化:

它非常适合 Relu 激活函数初始化

注意:还有一些完全错过的概念,比如优化器,如何通过在更少的迭代次数内获得权重来使我们的算法更快。

感兴趣的可以去搜索流行的tensor flow神经网络库。

小结

看了上面的实例,结合算法(程序猿的最爱),我们可以了解到:其实,人工神经网络的原理很简单,它与人的神经元网络类似,需要突触(感知器)去了解世界,当然是需要多个突触(多层感知器MLP),并且需要不断的对这种多层感知器(外界触觉)进行自我学习以获得正确的知识,怎样进行自我学习呢?那就需要用到几个激活函数,也就是我们常说的自我激励,在这个自我学习过程中,很容易出现机械的死板的学习方法(死记硬背套结果),那就是过拟合,怎样解决过拟合呢?那就要求我们举一反三、触类旁通,这就是学习方法(策略)!

好了,通过撰写这篇文章,Challey本人也理解、学会了什么是人工神经网络,相信您也会!

关注人工智能、神经网络、深度学习等的朋友可以关注我们或者联系作者(微信同名)。

如果还不会(只要你看了,相信你一定会了,除非……),你可以把它想象成人的神经大脑。事实上,科学家就是通过模拟人的神经网络的工作方式而发明人工神经网络的。

我们能够在人工智能的帮助下解决许多现实世界的问题。有许多类型的算法可以解决不同类型的问题,例如用于文本数据和时间序列数据的循环神经网络,用于图像数据的卷积神经网络,现在很多算法都建立在这些算法之上。

所有这些,基础的基础都是人工神经网络。

参考

Bar-Yam, Y. (1997). Dynamics of Complex Systems. Addison-Wesley.

Kauffman, S. (1993). Origins of Order, Oxford University Press.

Rojas, R. (1996). Neural Networks: A Systematic Introduction. Springer, Berlin.

Rumelhart, D. and J. McClelland (1986). Parallel Distributed Processing. MIT Press, Cambridge,

责编:Challey
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Challey
资深产业分析师
  • 利用超低功耗机器学习技术实现更有效的嵌入式视觉系统 带有高性能深度学习推理加速器芯片或与云数据中心宽带连接的高清摄像头,可以显著增强和改进传统的安全和监控方法。事实上,这样的深度学习系统已经展示了非凡的能力:面部识别、手势解释——例如检测入店行窃,甚至情绪估计——检测入店行窃的企图。或许这些能力已经变得令人刮目相看了。
  • 移动应用开发的未来是什么? 在智能手机如此普及的今天,人们时常忘记移动应用是“新事物”。目前还没有任何移动应用开发放缓的迹象。人工智能(AI)、VR、AR和区块链等新兴技术正在不断影响移动应用开发的进程,手机和可穿戴设备上的应用已逐渐渗透到人们的生活。那么,移动应用开发的未来是什么呢?
  • 谈谈vivo X80手机上的“双芯”是否真的有价值 现在国产手机OEM厂商发布自研芯片时,真正透露的技术细节少之又少,只会给个大致的概念。前几天vivo召开了X80系列手机发布会,以“双芯”为主题,主要是指联发科天玑9000 + vivo自研的V1+芯片。自打手机OEM厂商“自研芯片”大热以来,vivo应用于X70系列手机的V1 ISP芯片就很吸引眼球,V1+即为V1的迭代款……
  • 45家国产AI芯片厂商调研分析报告 AspenCore声明:感谢安谋科技、合见工软与瀚博半导体在AI芯片报告的调研和撰写过程中提供专业的技术指导、应用案例分析和行业洞察。我们将邀请来自这三家公司的技术专家参与EE直播间在线讲座:Fabless技术和应用系列-AI芯片的设计挑战与应用市场分析。
  • 中国云计算完全国产化了吗? 在基础云计算laaS方面,我们已经基本实现了独立自主,国产化率达到了45%;在平台即服务云计算PaaS方面,我们在政务方面应该实现了绝大部分的国产化;在软件即服务云计算SaaS方面呢?
  • 玩手游为什么需要AI芯片?谈谈AI超分技术在手机上的落地 AI技术成为一条重要的出路,比较典型的是基于深度神经网络,采用超分(super-resolution)方案实时地提升游戏的画质和游戏体验。简单来说,超分也就是把原本低分辨率的画面升格(upscale)为高分辨率的画面——具体到游戏……
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。
  • 基于架构创新,后摩智能点亮业内首款 5月23日,后摩智能宣布,其自主研发的业内首款存算一体大算力AI芯片成功点亮,并成功跑通智能驾驶算法模型。
  • Nexperia和KYOCERA AVX Componen 将成熟的GaN技术与创新型封装专业知识相结合
  • 这次,我们把汽车传感器与芯片报告整理全了! “一道神秘的闪电瞬间摧毁所有芯片,汽车无法启动,网络瘫痪,通信中断,地球倒退回原始社会,出现大面积灾难……”这本是科幻小说《球状闪电》中描述的场景,却与现实中正在加剧的汽车芯片短缺危机有些神似。 目前
  • STM32的SPI外设片选只有一个怎么破? 之前用STM32的SPI需要控制很多外部芯片,可是一个SPI的外设只有一个片选,如果想实现独立片选一主多从,又该怎么实现呢?SPI总线拓扑 一般来说,SPI总线按照下图方式进行连接,一主多从。如上图所
  • 放大器电源知识点汇总!课代表带你划重点! 课代表笔记来啦——  放大器电源的那些事儿 Part.1  ——学霸笔记妙,学习更高效😏正值《放大器电源的那些事儿》第二部分上线ADI为大家带来课代表笔记助您更快掌握放大器电源知识!点击可查看 每部分
  • 磨合期那些痛苦的事... 换工作,最难度过的是与新单位,新领导,新同事的磨合期。一旦熬过了那个时期,获得领导和同事的认可,后面的日子就比较好过了。孙工刚来到这个单位没多久,正在经历这个时期。领导让他找个射频收发芯片。要求是:工
  • 量子传感器,打开医学研究新大门 编译来源:EurekAlert  ,谢谢如果人类可以使用 X 射线视觉来观察阿尔茨海默病最早的细胞过程,他们就会看到大脑中某处的一条蛋白质链将自己绑成一个畸形的结。这种被称为蛋白质错误折叠的微观花边在
  • 未来将超千亿级市场规模?这个垂直赛道值得关注|爱分析报告 注:点击左下角“阅读原文”,直接参加报名。厂商全景报告实践报告联系我们
  • 高速数字信号的匹配问题 在高速数字信号中,PCB布线的目的,就是保证接收端能够正确接收到发射端的信号。正确体现在两个方面:(1)如果设计到时钟的话,需要保证时序的正确性;(2)波形幅度需要符合要求,因为数字信号一般对大于VI
  • 20220523买芯片找老王 芯片供应商骗局近期频频爆雷,假货、跑路、维权无门,两眼一抹黑怎么办?【超人投票】告诉你答案,火眼识别靠谱供应商。【超人投票】是芯片超人在2017年推出的,帮助市场上的朋友找到靠谱供应商的决策工具。5年
  • 半导体砍单风暴来袭 芯片验证春季班开班!1750元补助即将收尾!就业畅销课《芯片验证从入门到精通》据中国台湾媒体经济日报报道,半导体砍单风暴正式来袭,面板驱动IC厂开第一枪。 受制面板需求疲软、报价跌跌不休,业界传出,已
  • 为什么二级市场更看好比亚迪?|资本眼 文 | 金融街老李在下乡或是假消息的情况下,上周的汽车二级市场可谓跌宕起伏。5月13日,一则汽车下乡的消息在市场广为流传,汽车产业和资本市场的诸多研究员都在寻找答案——下乡消息是否是真实的。一直到了上
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了