当前,芯片IC设计、光刻机、AI等是全球最热的前沿科技。这些科技中无论是半导体还是新材料的研究或者人工智能及深度学习等都依赖最原始的基础学科:数学,这已经是人们的共识。基于此,笔者将整理一系列的数学和算法,欢迎关注。本文主要回顾数学中最重要的统计:概率分布。

当前,芯片IC设计、光刻机、AI等是全球最热的前沿科技。这些科技中无论是半导体还是新材料的研究或者人工智能及深度学习等都依赖最原始的基础学科:数学,这已经是人们的共识。基于此,笔者将整理一系列的数学和算法,欢迎关注。本文主要回顾数学中最重要的统计:概率分布。

概率论是集中研究概率及随机现象的数学分支,主要研究对象为随机事件、随机变量以及随机过程。概率分布,是指用于表述随机变量取值的概率规律,它大致分为离散概率分布和连续概率分布两种。在本文中,我们将介绍以下12种分布:

  1. 伯努利分布
  2. 二项分布
  3. 泊松分布
  4. 均匀分布
  5. 指数分布
  6. 正态/高斯分布
  7. 对数正态分布
  8. 幂律分布
  9. 帕累托分布
  10. 卡方分布
  11. 韦伯分布
  12. 学生 t 分布

 

伯努利分布

伯努利分布是离散概率分布之一,它只有两个可能的结果和一个称为伯努利试验的试验.

伯努利分布中的两种可能结果用 x=0 和 x=1 标记,其中 x=1 称为成功概率p,x=0 称为失败概率q = 1-p,因为它是一个概率值所以 0<=p<=1。

符号 : X ~ 二项式(p)

参数:p 是成功试验(0<=p<=1)

PMF = p(k) =

CDF = p(X<=k) =

平均值 =

方差 =

伯努利分布的 PMF

伯努利分布的 CDF

二项分布

二项分布是一种离散概率分布,表示在实验中重复独立 N 次试验中二项式随机变量 (X) 的不同值的概率。

例如——我们制造了一种药物,我们想找出有多少患者将从 n 名患者中受益的概率。我们知道患者 1 的药物结果与患者 1 的药物结果无关。对于每个患者有两种结果 0/1 (p/q) 药物对患者没有帮助,药物对患者有帮助,这不过是伯努利分布。

假设我有 n 个硬币。我在 n 次投掷中得到 k 个正面的概率是多少?

任何分布为二项分布的条件-

每个试验有两个结果

每个试验彼此独立。

对于 n 次试验中的每一次,成功的概率即 P(X=1) 保持不变。p(X=1) = 0.5 = p

在每个试验中,我们可以将其视为伯努利随机变量。

符号 : X ~ Bl(p,n)

参数:n为试验次数,

p 是成功试验

PMF = p(k) =

CDF = p(X<=k) =

平均值 =

方差 =

二项分布的 PMF

二项分布的CDF

均匀分布

均匀分布是每个值(在域中或区间中)出现的概率相同的分布。

均匀分布的类型

根据分布中使用的随机变量的类型,有两种类型的均匀分布。他们是

离散均匀分布

连续均匀分布

离散均匀分布

它是一个对称概率分布,其中,有限数量的值同样可能被观察到,所有值都是等概率的。“n”个可能结果中的每个人都有相等的概率 (1/n)

离散均匀分布的一个简单例子是掷一个公平的骰子。可能的值是 1,2,3,4,5,6,每次掷骰子时,给定分数的概率是 1/6。

如果掷出两个骰子并将它们的值相加,则结果分布不再均匀,因为并非所有和的概率都相等。

符号:X ~ Unif(a,b) 或 U(a,b)

参数:其中a和b是整数,b>a

可能结果的数量表示为“n”并且(即,n=b-a+1)

PMF = p(X=k) =

CDF = p(X=<k) =

平均值=

方差 =

离散均匀分布的 PMF

离散均匀分布的 CDF

连续均匀分布

如果随机变量是连续的并且服从均匀分布,则该分布称为连续均匀分布。

假设分布的最小值是'a',分布的最大值是'b',区间[a,b]中任意值出现的概率是相同的。所有可能的结果都是同样可能的。

符号:X ~ Unif(a,b) 或 U(a,b)

参数:其中a和b是整数,b>a

可能结果的数量表示为“n”并且(即,n=b-a+1)

PDF = p(X=k) =

CDF = p(X=<k) =

平均值=

方差 =

连续均匀分布的 PDF

连续均匀分布的 CDF

泊松分布

泊松分布是一种离散概率分布,用于衡量每单位时间发生的事件数量。

泊松分布以 0 和无穷大为界。

某些事件在每个给定的时间间隔(秒、分钟、小时、天……)发生 λ 次。它在给定时间内发生 x 次的概率是多少。这种给定 λ 的概率分布称为泊松分布。

假设

事件发生的速率是恒定的

一个事件的发生不影响后续事件的发生(即事件是独立的)

假设 λ=10,这意味着我们平均每小时接到 10 个电话。现在我们要计算你在一小时内接到 10、9、11、15、6 个电话的概率是多少?

符号 : X ~ poisson(λ)

参数:λ,即任何事件发生的速率。

PMF = p(X=k) =

CDF = p(X=<k) =

平均值=

方差 =

泊松分布的 PMF

泊松分布的 CDF

泊松分布的另一个性质是

如果

X1 ~ poisson(λ1) 和 X2 ~ poisson(λ2)

(两者都是独立的)

然后

(X1 和 X 2) ~ 泊松(λ1 + λ2)

指数分布

指数分布是计算事件之间时间的连续概率分布。

某些事件在每个给定的时间间隔(秒、分钟、小时、天……)发生 λ 次。某事件在 t 时间后发生的概率是多少?

假设 λ=10,这意味着我们平均每小时接到 10 个电话。现在我们要计算您在 10 分钟、30 分钟、1 小时、1.5 小时内接到电话的概率是多少?

给定 β=1/λ 的这种概率分布称为指数分布,它与泊松分布相反。

假设

事件发生的速率是恒定的

一个事件的发生不影响后续事件的发生(即事件是独立的)

符号 : X ~ 指数(λ)

参数:λ,它是任何事件发生的速率。

PDF =

CDF =

平均值=

方差 =

指数分布的 PDF

指数分布的 CDF

指数分布的无记忆性

指数分布的随机变量T服从关系

指数分布是无内存分布。事件至少在 t 时间内发生的概率与等待 s 时间后发生的概率相同。

Pr(X > s+t | X > s) = Pr(X > t)

Pr(事件在 40 分钟内发生|等待 30 分钟)= Pr(事件在 10 分钟内发生)

正态/高斯分布(μ, p2)

正态分布是统计学家和数学家广泛使用的分布。要使随机变量呈正态分布,它需要具有有限均值和有限方差。

有很多自然现象遵循正态分布,也就是所谓的高斯分布。正态分布表明,大部分总体倾向于具有接近平均值 μ 的值,并且当您远离平均值时,概率开始根据方差或标准偏差 σ 减小。它形成概率的钟形曲线。

生物的身高、体重和长度服从正态分布。

随着 n 的增加,样本均值或总和的分布接近正态分布。

当我们从未知分布的群体中抽取大量样本时,它遵循正态分布。

X ~ 正常(m, p2)

其中 μ 是平均值

σ2 是标准差

PDF = f(x) =

CDF = F(x) =

平均值 = E(x) =

方差 = Var(x) =

正态分布的 PDF

正态分布的 CDF

经验法则或 68–95–99.7 法则

68-95-99.7 规则或经验规则用于记住正态分布的区间估计值中的百分比。

68%、95%和99.7%的数值分别位于两侧第一、第二和第三标准差的区间内。

例如,我们有一个均值为 150,标准差为 25 的正态分布,则 1σ = 25;2σ = 50, 3σ = 75

68% 的值位于区间 [150–25, 150+25] 中(即 [125,175])

95% 的值位于区间 [150–50, 150+50] 中(即 [150,200])

99.7% 的值位于区间 [150–75, 150+75](即 [75,125])

注意:正态分布的平均值始终不是必须为 0。它也可以是非零值。但是,一旦将值标准化,则均值变为 0,标准差变为 1。

标准正态变量 (Z) 和标准化

标准正态分布是均值为零,标准差为 1 的正态分布。

标准正态变量 — Z 分数是一种数值度量,用于描述一个值与一组值的平均值的关系。

如果我们有一个均值为 0、标准差为 1 且服从正态分布的随机变量“Z”,则“Z”称为标准正态变量。表示为 Z~N(0,1)

标准化是将具有均值“μ”和方差“σ 2”的给定分布转换为均值为 0、标准差为 1 的相同类型分布的过程。(即使方差也为 1)

注意:标准化只是将给定的值分布转换为平均值 = 0 和标准差 = 1 的新尺度。分布的性质根本不会改变。(无论分布是高斯还是非高斯)

对数正态分布:lognormal(μ, σ2 )

如果连续概率分布的自然对数服从正态分布,则称其为对数正态分布。

如果随机变量“X”是对数正态分布的,则 Y=ln(X) 具有正态分布。

类似地,如果 Y=ln(X) 具有正态分布,则 X = exp(Y) 具有对数正态分布。

如果某件事更有可能在短时间内发生,然后发生的概率随着时间的推移缓慢下降,通常是对数正态分布的。

X ~ LogNormal(m, p2)

其中 μ 是平均值

σ2 是标准差

PDF = f(x) =

CDF = F(x) =

平均值 = E(x) =

方差 = Var(x) =

如果 X ~ LogNormal(m, p2)

然后 y = log(x) 并且 y 服从正态分布(自然对数)

对数正态分布的 PDF

对数正态分布的 CDF

对数正态分布始终呈正偏态。没有机会被负面扭曲。每个对数正态分布都是偏态分布,但每个偏态分布都不是对数正态分布。

对于对数正态分布,我们不能应用 68-95-99.7 规则,因为它不是高斯分布。但是一旦我们对一个对数正态分布变量应用一个自然对数,那么转换后的特征遵循正态分布,那么 68-95-99.7 规则就适用了。

如果“X”服从对数正态分布,则 Y=ln(X) 服从正态分布。Y~N(μ, σ)

根据正态分布,

68% 的数据位于 [m-s, m+s]

95% 的数据位于 [μ-2σ, μ+2σ]

99.7% 的数据位于 [μ-3σ, μ+3σ]

因为 Y=ln(X) ⇒ X = eY

所以 'X' 中 68% 的数据位于 [eμ-σ, eμ+σ]

所以 'X' 中 95% 的数据位于 [eμ-2σ, eμ-2σ]

所以 'X' 中 99.7% 的数据位于 [eμ-3σ, eμ-3σ]

这里 μ,σ 是 'Y' 的参数

如何检查给定分布是否为对数正态分布

让'X'是给定的输入分布。让我们计算“X”值的自然对数并将它们表示为“Y”。(即,Y = ln(X))。

用 QQ 图检查 Y 是否正常。QQ 图在“Y”轴上具有“Y”值,在“X”轴上具有随机生成的正态分布 N(μ', σ2 )。如果绘图看起来像一条直线,那么我们可以确认“Y”是正态分布的,“X”是对数正态分布的。

对数正态分布的应用

互联网论坛发表的评论长度服从对数正态分布

用户在互联网上阅读文章/博客等的时间也遵循日志正态分布。

为什么对数正态分布的峰值不被视为均值?

正态/高斯分布是对称的,50% 的值位于一侧

其余 50% 的值位于另一侧。所以我们可以说高斯分布的最高峰是它的平均值。

但是在对数正态分布的情况下,我们不能保证平均值是

因为曲线是不对称的,所以恰好出现在最高峰。

幂律分布

幂律是两个量之间的函数关系,其中一个量的相对变化导致另一个量成比例的相对变化,与这些量的初始大小无关。(即,一个数量随着另一个数量的力量而变化)。

幂律遵循 80-20 规则。在给定的分布“X”中,80% 的分布值低于 20% 的“X”值。当分布遵循幂律时,该分布称为帕累托分布。幂律函数有一条长尾。帕累托分布适用于连续随机变量。

帕累托分布

任何遵循幂律分布的分布称为帕累托分布。

帕累托分布的参数是

xm>0。此参数称为“比例”,仅采用实数值。它类似于高斯分布中的“μ”。

α > 0。此参数称为“形状”,仅采用实数值。它类似于高斯分布中的“σ”。

示例——80% 的社会财富由 20% 的人持有。

帕累托分布 PDF

帕累托分布的 CDF

从 PDF 图中,我们观察到随着 'α' 值不断减小,尾部变得不那么粗。对于 α → 无穷大,PDF 变为 delta 函数(即,具有单个值的垂直直线)。这里这个 delta 函数只在一个点有一个值,而在其他点上,它的值是 0。这样的函数称为 Dirac Delta 函数。

帕累托和对数正态分布的共同点是“两种分布都有少量较大的值和大量的较小值。但主要区别在于帕累托分布没有增加的 PDF。

如何检查两个给定变量是否遵循幂律?

检查两个给定变量是否遵循幂律的一种方法是使用对数对数图。如果 'X' 和 'Y' 是两个给定变量,那么如果我们用 Log(X) 在 X 轴上,Log(Y) 在 Y 轴上做一个绘图,并且绘图收敛到一条直线,如图所示如图,那么我们可以说分布有幂律尾。(即,两个变量都遵循幂律)对数图上的直线是幂律的有力证据,直线的斜率对应于幂律指数。

如果发现分布是帕累托,可以应用 box-cox 变换将其转换为正态/高斯分布。

卡方分布

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。

卡方分布在数理统计中具有重要意义。它是由阿贝(Abbe)于1863年首先提出的,后来由海尔墨特(Hermert)和现代统计学的奠基人之一的卡·皮尔逊(C K.Pearson)分别于1875年和1900年推导出来,是统计学中的一个非常有用的著名分布。

卡方分布是由正态分布构造而成的一个新的分布,当自由度 很大时,卡方分布近似为正态分布。

对于任意正整数x, 自由度为u的卡方分布是一个随机变量X的机率分布。

概率密度函数

卡方分布的概率密度函数为:

其中这里Γ代表Gamma函数。

概率密度函数曲线

累积分布函数曲线

卡方分布的累积分布函数为:

其中γ(k,z)为不完全Γ函数

在大多数涉及卡方分布的书中都会提供它的累积分布函数的对照表。此外许多表格计算软件如OpenOffice.org Calc和Microsoft Excel中都包括卡方分布函数。

自由度为k的卡方变量的平均值是k,方差是2k。 卡方分布是伽玛分布的一个特例,它的熵为:

其中是双伽瑪函數。

累积分布函数曲线

韦伯分布

韦布尔分布,即韦伯分布(Weibull distribution),又称韦氏分布或威布尔分布,是可靠性分析和寿命检验的理论基础。

威布尔分布在可靠性工程中被广泛应用,尤其适用于机电类产品的磨损累计失效的分布形式。由于它可以利用概率值很容易地推断出它的分布参数,被广泛应用于各种寿命试验的数据处理。

从概率论和统计学角度看,Weibull Distribution是连续性的概率分布,其概率密度为:

其中,x是随机变量,λ>0是比例参数(scale parameter),k>0是形状参数(shape parameter)。显然,它的累积分布函数是扩展的指数分布函数,而且,Weibull distribution与很多分布都有关系。如,当k=1,它是指数分布;k=2且时,是Rayleigh distribution(瑞利分布)。

均值

其中,Г是伽马(gamma)函数。

方差

偏度

峰度

概率密度函数曲线

累积分布函数曲线

学生 t 分布

在概率论和统计学中,学生t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

学生t-分布可简称为t分布。其推导由威廉·戈塞于1908年首先发表,当时他还在都柏林的健力士酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后t检验以及相关理论经由罗纳德·费雪的工作发扬光大,而正是他将此分布称为学生分布。

t分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。

由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。 

假设X服从标准正态分布N(0,1),Y服从

分布,那么

的分布称为自由度为n的t分布,记为

分布密度函数 

其中,Gam(x)为伽马函数。

责编:Challey
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
在AI算力突破传统成像系统天花板的计算革命下,AI ISP技术也将不断发展,其算力也将越来越强,其产品成本将不可避免的越来越低,拍摄距离也将越来越远,效果也会越来越好。而一直被大众所不理解和诟病的特斯拉的全摄像头视觉技术,或许不久将成为现实。
对于任何批量生产的产品来说,原型设计是至关重要的。产品开发过程中创建和使用原型时,设计团队往往面临诸多选择和权衡。借助完善的仿真工具,可准确预测原型设计及PCB布设和装配后的性能状况,包括信号完整性、电磁兼容性或I/O布线的任何可能性变化;再借助专业公司的设计经验,即可顺利地将产品创意变成现实。
本文将介绍LoRa网络架构的四个主要元素,并详细讨论设计人员在开发LoRa终端节点时面临的一些最常见的挑战。我们还会介绍在帮助克服这些挑战并缩短上市时间方面,经过法规认证的LoRa模块有何作用。
AI(人工智能)已经是未来十年甚至是数十年科学和科技界最重要的发展领域,未来技术的进步也将在AI的不断进化中快速提升。在AI领域的软件模型算法已经相对成熟(当然还在不断的优化、改进和发展)的当下,对硬件的考验与要求越来越高。以往,AI芯片级硬件主要被NVIDIA的 A100主导称王,现在这一局面逐渐被打破。6月底, MLCommons公布的MLPerf v2.0 训练结果显示,Graphcore的Bow Pod系列和Intel的HLS-Gaudi2的性能已经比NVIDIA的DGX-A100快了超过30%。
介绍了现代光学设计的基础知识,理解了光线的定义和光的干涉衍射,牛顿环的解释。
在为AD变换器设计优异的射频前端时,有多种方法,这往往令设计师犹豫不决。本文对如何克服ADC模拟前端接口设计的缺陷提供快速入门指南,并对各种有源接收前端设计方法进行了深入比较,还介绍了新型TRF1208差分放大器。这将有助于设计师作权衡和取舍,并做出明智的选择。
由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

2023 财年第一季度收入达到 2.03 亿欧元,与基于报告期账面财务数据相比增长 12%,按固定汇率及固定周期计算增长 6%。这得益于移动通信业务的持续增长以及汽车和工业业务强劲增长的推动。2023 财年指导预测确认:按固定汇率和固定周期计算,收入预计增长约 20%,EBITDA[1]利润率[2]预计增长约 36%……
智能手机是目前CIS产品最大的应用市场,其成像系统始终在进行强劲升级。据Counterpoint Research预测,未来每部智能手机的CMOS图像传感器(CIS)含量将平均扩大至4.1。同时更强大的芯片组、成像性能的突破以及软硬件的进步等多因素的综合作用,将不断为手机市场的消费者提供更好的成像体验。
近日,为推动集成电路产业跃升发展,《横琴粤澳深度合作区促进集成电路产业发展若干措施》(以下简称《若干措施》)正式印发。据了解,这是合作区成立以来瞄准集成电路产业发展推出的首个专项扶持措施,将切实拿出“
亚化咨询重磅推出《中国半导体材料、晶圆厂、封测项目及设备中标、进口数据全家桶》。本数据库月度更新,以EXCEL表格的形式每月发送到客户指定邮箱。1. 中国大陆半导体大硅片项目表(月度更新)2. 中国大
本文来源:物联传媒本文作者:银匠近日,由投资界发布的一篇标题为《一家芯片公司倒在了B轮》的文章,在笔者的朋友圈发酵,并引起了广泛的讨论。这个文章的主角就是诺领科技,其主要业务是研发NB-IoT和Cat
小功率超合算的原边反馈开关电源芯片CY2525DCY2525D开关电源中的原边反馈相较于副边反馈,无需光耦隔离,PCB板会小一些,成本相对也会低一点。CY2525D是一款原边反馈电源控制器开关电源芯片
知名分析机构Gartner表示,受手机和个人电脑销售疲软的影响,预计全球半导体销售增长将在2022年放缓,明年将下降2.5%。据路透社报道,Gartner指出,通货膨胀加剧、能源和燃料成本上升,给消费
IEEE-INGRInternational Network Generation RoadmapIEEE推出的International Network Generation Roadmap(ING
点击上方蓝字 关注我吧7月27日消息,据外媒报道,当地时间周二上午,《美国芯片法案》在参议院程序性投票环节中获得通过,这为本周的最终投票做好了准备。据估计,该法案针对中国的部分,是将要求美国补助的企业
晶振大致分为两类无源晶振:一般消费级产品或者对精度要求不高的产品,推荐使用价格更低的无源晶振。晶体谐振器Crystal Resonator需要匹配外部谐振电路才可以输出信号,自身无法振荡。有源晶振:高
本文来源:智能相对论7月23日,以“创新驱动新变革 数字引领新格局”为主题的第五届数字中国建设峰会在福建省福州市开幕。中国移动在这次峰会上,围绕“共赢算力新时代 共创数智新未来”主题,在海峡国际会展中
当地时间7月19日,美国参议院举行程序性投票,以64:34票的结果通过了涉华意味浓厚的“芯片法案”。这成为美国政府主导的大规模芯片投资计划在参众两院“闯关”的关键一步。作为绝大多数现代电子产品和新兴技