统计学-随机变量

原创 云深之无迹 2024-03-02 22:29

我发现微积分,线性代数,概率,统计,这四个学科有点难舍难分。但是应该从微积分,线性代数这样学才是对的,不然你是看不懂统计和概率的。

统计学是说两个事情,一堆数据如何描述,以及数据如何推断。

统计描述 (descriptive statistics) 是指对数据进行整体性的描述和概括,以了解数据的特征和结构。统计描述旨在通过一些表格、图像、量化汇总来呈现数据的基本特征,比如中心趋势、离散程度、分布形态等。统计描述通常是数据分析的第一步,可以帮助我们了解数据的基本情况,判断数据的可靠性、准确性和有效性。 

在大学第一次学这些内容的时候,并不能很好的理解全部的内容,但是一年多的工程实践,让我有了那么一点点的全局的感觉。



“随机变量不同于代数中的变量,因为它具有一组完整的值,并且可以随机获取任何值。代数中使用的变量一次不能具有多个值。如果随机变量X = {0,1,2,3} 那么X可以是随机的0、1、2或3,其中每个都有不同的概率。”

随机变量

统计描述

随机变量是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。 

因变量

变量拥有这些特点

随机变量在统计和概率中非常重要的概念,必须先具有随机变量,才会有后续概率分布的概念。

随机变量用来表示随机现象的结果,可以看成一组值,每个值都有一定的概率被取到。

我感觉以前没有学好的原因就是一些基础概念的不理解。

接下来就是概率:

古典概率空间

就是这样的

比值就行

这里插一句,其实上面的分类有些混乱,其实研究完随机变量,就是研究多高多个随机变量之间的关系。

先看两个变量之间的关系

这样的,就无非是发生和不发生以及有顺序在

再补一个条件概率:

条件概率(英語:conditional probability)就是事件A在事件B发生的条件下发生的概率。条件概率表示为P(A|B),读作“A在B发生的条件下发生的概率”。边缘概率是某个事件发生的概率。联合概率是两个事件一起发生。

总结一下:

这一趴算OK

至于为什么是古典概率,大概就是因为在古代大家就在研究这个。

这些个是离散随机变量,我这里就有点知识匮乏了

高斯分布就不放了,我搞不懂了

接下来看统计描述:

书里面吧,人家公式啥的写的更详细,我这里就盗图了。

用Adobe Illustrator美化matplotlib输出图

书是使用的上面文章里面的书。

直方图通常将样本数据分成若干个连续的区间,也称为“箱子”或“组”。直方图中矩形的纵轴高度可以对应频数、概率或概率密度。

一般我们使用的时候,频数用到最多。

你看这个图多漂亮,就算不懂都一目了然

频数,也叫次数,是指在一定范围内样本数据的数量。显然,频数为非负整数。

频数除以样本总数的结果做概率

概率除以组距得到的是概率密度 (probability density)

积频数就是将从小到大各区间的频数逐个累加起来,累积频数的最后一个值是样本总数。

积分是什么?

先不管哪些公式啥的,就记住我说的话:指的是对函数的积累总和或面积的计算过程。在微积分中,积分是求解函数的定积分或不定积分,用于计算曲线下面积、求函数的反导数等。

就是加起来,求和,至于把什么加起来再说,反正就先认为是加起来。

就是积分这个Fx,从a到-♾️

这里补充一个知识:

一开始文章里面的这个地方的♾️是没有符号的,感谢王老师

记住积分的区间

王老师口中的累积概率函数也是概率分布函数的意思

概率密度函数描述的是随机变量在某个取值点的概率密度,是描述随机变量分布的基本函数之一。

纵轴是概率密度,你可以看下面的值,对应的密度是多少

名词出现,概率密度?其实很多时候都是从物理上面拉概念。

概率密度(Probability Density),指事件随机发生的几率。概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。

在实际问题中,往往无法直接获得概率密度函数,因此需要通过概率密度估计来估计概率密度函数。

概率密度函数:在数学中,连续型随机变量的概率密度函数(Probability density function,简写作PDF),在不致于混淆时可简称为密度函数,是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

下图中,横轴为随机变量的取值,纵轴为概率密度函数的值,而随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。

当概率密度函数存在的时候,累积分布函数概率密度函数的积分。

图就是这样

概率密度函数可帮助确定随机变量值的较高和较低概率的区域。

对于离散变量,PDF 将给出给定 x 值的概率值。例如,糖果制造商生产多种颜色的某一类型糖果。生产的糖果中有 30% 为黄色,10% 为橙色,10% 为红色,20% 为绿色,30% 为蓝色。

概率密度函数 (PDF) 是一个用于表示连续随机变量的概率分布的等式。例如,为葡萄酒瓶切割软木塞的机器可产生直径不同的软木塞。在下面的软木塞直径条形图中,每个条形表示具有相应直径的软木塞的百分比。

曲线是软木塞直径的 PDF。可使用 PDF 确定随机变量值的较高和较低概率的范围。例如,只有较小百分比的软木塞 (1%) 直径小于 2.8 厘米。

这个图不咋样

山脊图 (ridgeline plot) 是由多个重叠的概率密度线图构成,这种可视化方案形式上紧凑。山脊图的基本思想是,将数据沿着 y 轴的方向上的一条带状区间内进行展示,使得数据的分布曲线能够清晰地显示出来,并且不会重叠和遮挡。在山脊图中,每个变量的分布曲线通常用核密度估计法或直方图法进行估计,然后按照一定的顺序进行平移和叠加。
山脊图常用于探索多个变量之间的关系和相互作用,以及发现变量的共同分布特征和异常点。它可以用于可视化各种类型的数据,比如时间序列数据、连续变量数据、分类变量数据等。

山脊图

散点图常用于展示两个变量之间的关系和相互作用。散点图将每个数据点表示为二维坐标系上的一个点,其中一个变量沿 x 轴方向表示,另一个变量沿 y 轴方向表示,每个点的位置反映了两个变量之间的数值关系。
散点图可以用于研究两个变量之间的线性关系、非线性关系或者无关系。如果两个变量之间存在线性关系,那么散点图中的点会形成一条斜率为正或负的回归直线。如果两个变量之间存在非线性关系,那么散点图中的点会形成一条回归曲线或者散布在二维坐标系的不同区域。如果两个变量之间无关系,那么散点图中的点会相对均匀地分布在二维坐标系中。

散点图常用于探索数据中的异常值、趋势和模式,并且可以发现变量之间的相互作用和关联性。

散点图还可以进行扩展,就是在边缘做计算

左是边缘直方图,右是加了概率密度曲线

其实就是变量之间的关系的可视化。

这里说一下使用的这个数据集:

鸢尾花数据集共收集了三类鸢尾花,即Setosa鸢尾花、Versicolour鸢尾花和Virginica鸢尾花,每一类鸢尾花收集了50条样本记录,共计150条。

数据集包括4个属性,分别为花萼的长、花萼的宽、花瓣的长和花瓣的宽。对花瓣我们可能比较熟悉,花萼是什么呢?花萼是花冠外面的绿色被叶,在花尚未开放时,保护着花蕾。四个属性的单位都是cm,属于数值变量,四个属性均不存在缺失值的情况,字段如下:

  • sepal length(萼片长度)

  • sepal width(萼片宽度)

  • petal length(花瓣长度)

  • petal width (花瓣宽度)

  • Species(品种类别):分别是:Setosa、Versicolour、Virginica

单位都是厘米。

数据集是很小的

官方的位置

可以用pandas来下载

我们简单的来进行一个替换

接下来安装一下Spyder

可以安装一个插件开启notebook

看看优点

看看补全

但是这个Jupyter的插件是无法在安装的

这个是信号与系统里面的内容,看到了这个概密度函数

一个函数如果满足如下条件,则可以称为概率密度函数:

这可以看做是离散型随机变量的推广,积分值为1对应于取各个值的概率之和为1。

分布函数是概率密度函数的变上限积分,它定义为:

显然这个函数是增函数,而且其最大值为1。分布函数的意义是随机变量的概率。注意,连续型随机变量取某一个值的概率为0,但是其取值落在某一个区间的值可以不为0:

虽然连续型随机变量取一个值的概率为0,但取各个不通过的值的概率还是有相对大小的,这个相对大小就是概率密度函数。这就好比一个物体,在任意一点处的质量为0,但在这一点有密度值,密度值衡量了在各点处的质量的相对大小。

从这个角度,我们可以将概率密度函数解释为随机变量落在一个区间内的概率与这个区间大小的比值在区间大小趋向于0时的极限:

这个过程如下图所示:

还是以上面的正方形为例,如果要计算随机点(x, y)都落在区间[0, 0.5]内的概率,可以这样计算:

这个面积,就是积分值,对应于分布函数。最常见的连续型概率分布是正态分布,也称为高斯分布。它的概率密度函数为:

其中μ和σ分别为均值和方差。现实世界中的很多数据,例如人的身高、体重、寿命等都近似服从正态分布。

另外一种常用的分布是均匀分布,如果随机变量x服从区间[a,b]内的均匀分布,则其概率密度函数为:

在程序设计和机器学习中,这两种分布是最为常见的。


一般教程里面都会说一个什么质量为0的物体:之所以说在任意一处质量为0的原因,是因为在连续分布中,分母是无穷大的。

概率密度就是对概率求导:左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。

如果随机变量的值都可以逐个列举出来,则为离散型随机变量。如果随机变量X的取值无法逐个列举则为连续型变量。

概率分布函数就是把概率函数累加

来看看图上的公式,其中的F(x)就代表概率分布函数

这个符号的右边是一个长的很像概率函数的公式,但是其中的等号变成了小于等于号的公式。再往右看看,这是一个一个的概率函数的累加!

发现概率分布函数的秘密了吗?它其实根本不是个新事物,它就是概率函数取值的累加结果!所以它又叫累积概率函数!

这个词的意思是什么?

概率密度函数用数学公式表示就是一个定积分的函数,定积分在数学中是用来求面积的,而在这里,你就把概率表示为面积即可。

Q:概率密度函数在某一点的值有什么意义?
A:比较容易理解的意义,某点的概率密度函数即为概率在该点的变化率(或导数)。很容易误以为该点概率密度值为概率值.
比如: 距离(概率)和速度(概率密度)的关系.
某一点的速度, 不能以为是某一点的距离
没意义,因为距离是从XX到XX的概念
所以, 概率也需要有个区间.
这个区间可以是x的邻域(可以无限趋近于0)。对x邻域内的f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。

本来是感觉这本书非常有用,但是发现还是要数学知识扎实才能看爽

不过在此之前也可以先看看这个

接下来的文章如果会发的话,那就是要上强度了。

https://cloud.tencent.com/developer/article/1514756
https://zhuanlan.zhihu.com/p/48140593
https://github.com/Visualize-ML/Book5_Essentials-of-Probability-and-Statistics
https://juejin.cn/post/7141566114412101662
https://www.gairuo.com/p/iris-dataset
http://archive.ics.uci.edu/dataset/53/iris
https://support.minitab.com/zh-cn/minitab/21/help-and-how-to/probability-distributions-random-data-and-resampling-analyses/supporting-topics/basics/using-the-probability-density-function-pdf/

评论 (0)
  • 非常荣欣参加了这次《码上行动:用ChatGPT学会Python编程》试读体验活动,同时非常感谢面包板论坛举办此活动。本书印刷还是非常新颖,具有精美漫画。下图为图书正面。 本书的内容从零基础开始,由浅入深地介绍Python的基础语法及相关概念,无须任何编程经验即可阅读学习。在讲解相关知识点时,均配有示例代码,方便读者结合代码进行理解,边学边练。本书在教授 Python知识的同时,也演示了ChatGPT工具的使用。除了通过向ChatGPT提问的方式获取信息和指导,书中还进一步介绍了ChatGPT在
    shenwen2007_656583087 2024-04-17 01:33 144浏览
  • 科技云报道原创。物之生也,若骤若驰,无动而不变,无时而不移。技术创新的步伐丝毫没有放缓的迹象,在这个日新月异的时代,科技创新在改变人们生活、推动社会进步方面扮演着关键的角色。2024年有望成为又一个开创性的年份。对于企业而言,如何把握未来趋势并抓住创新机遇比以往任何时候都更重要。在新的一年即将到来之际,让我们一起探索最新科技趋势,它们将重塑世界,并对人类发展产生巨大影响。趋势一:GenAI发展重点将从理论转向实践2023年是GenAI(生成式AI)的元年,特别是ChatGPT等GenAI系统的涌
    科技云报到 2024-04-16 17:48 106浏览
  • 科技云报道原创。存储,是数字化时代的“粮仓”。它承载着企业的海量数据,是企业数字化转型的基础。然而,随着非结构化数据在生产业务中的广泛应用,各行各业正在经历数据量的爆炸式增长。虽然分布式存储在大众认知内具有高性价比和高扩展性,却未被赋予高性能的标签。可以说,分布式存储没能完全解决存储领域“大容量、高性能、高性价比不可能之三角”这一痛点。分布式存储的主要优势在于其出色的对象存储能力,但在文件存储的性能表现上,大小文件有所差异。对于大文件的处理,由于技术壁垒较低,并且许多业界厂商已经针对此进行了深入
    科技云报到 2024-04-16 17:22 78浏览
  • 科技云报道原创。世界是复杂的,没有人知道未来会怎样,但如果单纯从技术的角度,我们总是能够沿着技术发展的路径,找到一些主导未来趋势的脉络。从Sora到Suno,从OpenAI到Copilot、Blackwell,这些热词在大众眼里或许还分不清楚,但很多人已经用上各种“ChatGPT”,或聊天或创作。不知不觉间,我们已经卷入新一轮AI浪潮中。这轮人工智能浪潮,自ChatGPT这类生成式AI工具问世,被迅速引爆。AI大模型从研究走向应用,复用成本大幅降低,各种应用得以更快渗透进各行各业。IDC发布报告
    科技云报到 2024-04-17 14:45 69浏览
  • 在数字信息技术飞速发展的今天,各行各业都在经历着数字化转型的浪潮。作为培养驾驶人才的重要场所,驾校也不例外。依托科技的进步和互联网数据平台的普及,驾校数字化发展趋势已经成为行业发展的新引擎,它不仅改变了传统教学模式,也为学员提供了更加便捷、高效的学习体验。 驾校数字化发展的首要表现是教学管理系统的智能化。传统的驾校管理多依赖纸质档案和人工操作,效率低下且易出错。而现代的驾校通过引入智能管理系统,实现了学员信息、车辆调度、教练分配等环节的自动化管理。这些系统能够实时更新数据,为驾校管理层
    lauguo2013 2024-04-17 09:40 88浏览
  • 在电子工程领域,示波器探头作为电路测试与分析的关键工具,其重要性不言而喻。它不仅能够帮助工程师们快速准确地捕捉电路中的信号变化,还能够为故障排查和性能优化提供宝贵的数据支持。本文将探讨示波器探头的工作原理、类型选择及其在电路测试与分析中的应用。 一、示波器探头的工作原理 示波器探头的主要作用是将电路中的信号转换为示波器可以处理的电压信号。它通常由感应部分、传输线和补偿电路组成。感应部分负责捕捉电路中的信号,传输线则将信号传输至示波器,而补偿电路则用于消除传输线引入的误差,确保信号的准确性。
    MISUMI米 2024-04-16 15:51 119浏览
  • 为了和大家探讨网络安全领域中的关键问题,我将分两期来展示如何使用ntopng和NetFlow/IPFIX检测Dos攻击。在本篇中,我先简单介绍网络安全面临的挑战、为何网络流量分析在应对网络安全挑战中起重要作用,此外,我会介绍在此次检测中使用到的工具软件。一、网络安全挑战近年来,由于网络攻击和在线安全威胁的增加令人担忧,造成这种增长的原因包括以下几个方面:l l对技术的依赖性越来越强:随着我们对各种设备的依赖性增加,与互联网的连接也日益紧密,这为攻击者提供了更多的机会。网络中的每个连接点
    虹科网络可视化 2024-04-17 13:21 49浏览
  •   作者介绍  一、政策持续推动中国新车评价规程(C-NCAP)于今年1月18日正式发布,新版评价规程基于中国道路交通事故研究现状及中国汽车基础数据研究成果,旨在推动中国道路交通从“零死亡”向“零伤亡”再向“零事故”的终极目标不断前进,将于 2024 年 7 月 1 日起正式实施。在这版更新后的主动安全测试项中,引入了三个基于C-V2X技术的测评场景:CCRH(High Speed Car to Car Rear——车辆高速直行于前方静止目标车辆测试场景)
    虹科测试测量TM 2024-04-17 14:48 80浏览
  • 科技云报道原创。在AI发展历史上,曾有两次“圣杯时刻”。第一次发生在2012年10月,卷积神经网络(CNN)算法凭借比人眼识别更低的错误率,打开了计算机视觉的应用盛世。第二次是2016年3月,DeepMind研发的AI程序AlphaGo,战胜世界围棋冠军李世石,让全世界惊叹于“人工智能”的实力。这两次“圣杯时刻”的幕后,都有芯片创新的身影。适配通用算法的英伟达GPGPU(通用图形处理单元)芯片,以及走专业化路线谷歌TPU(张量处理单元)芯片都在这两次大发展中大放异彩。如今大模型的兴起,正在逼近第
    科技云报到 2024-04-16 12:41 120浏览
  • 科技云报道原创。AI大模型正在倒逼数字基础设施产业加速升级。过去一年半,AI大模型标志性的应用相继出现,从ChatGPT到Sora一次次刷新人们的认知。震撼的背后,是大模型参数指数级的增长。这种数据暴涨的压力,快速传导到了大模型的底层基础设施。作为支撑大模型的底座“三大件”——算力、网络、存储,都在快速的迭代。算力方面,英伟达用了两年的时间就将GPU从H100升级到了H200,让模型的训练性能提升了5倍。网络方面,从之前的25G升级到现在的200G,网络带宽提升了6倍。随着RDMA大规模的应用,
    科技云报到 2024-04-17 13:45 61浏览
  • 一、根据开发手册网口一节参照如下:自动永久配置静态 IP 地址通过 ifconfig 命令和 ip 命令配置的 IP 地址断电之后就会丢失,如果需要使 IP 地址永久生效,就需要修改网络管理工具相应的配置文件。 使用 systemd-networkd 管理工具配置动态获取 IP 地址root@myir-remi-1g:~# cd /root@myir-remi-1g:/# lsbin   dev       &nbs
    智者学派 2024-04-17 17:04 77浏览
  • 随着双碳战略发展,利用无线通信等先进技术推动电力系统数智化升级已成为构建可持续社会的必由之路。电力系统各环节存在多、远、广等特点,面对着部署成本高、安全要求高、上线周期长等挑战,广和通电力模组实现了成本性能双优,是智慧电网规模化部署的卓越连接方案。国家能源局于2023年6月发布《新型电力系统发展蓝皮书》,规划了新型电力系统形态。在新型电力系统中,电源将逐渐向不确定性强、弱可控出力的新能源发电装机占主导过渡。电网侧将向交直流混联大电网、微电网、局部直流电网和可调节负荷的能源互联网转变。负荷侧将向柔
    物吾悟小通 2024-04-16 18:49 42浏览
  • 科技云报道原创。北京冬奥运AI 虚拟人手语主播、杭州亚运会数字人点火、新华社数字记者、数字航天员小诤......当随着越来越多数字人出现在人们生活中,整个数字人行业也朝着多元化且广泛的应用方向发展,快速拓展到不同行业、不同场景。面向C端,数字人帮助用户生产内容和辅助工作,如:数字人练口语、和数字人玩游戏等;面向B端,数字人是企业的“工具人”,应用于金融、影视、电商、直播等行业,提高行业生产和运营效率。毫无疑问,数字人是一门好生意,但其规模化落地依然面临着人才、成本、场景、技术等层层困难。其中,最
    科技云报到 2024-04-17 14:08 84浏览
  • ams OSRAM,智能传感器和发射器的全球领导者,日前在2024法兰克福照明与建筑技术展(Light + Building 2024,下称法兰克福照明展)上精彩上演一场光影革命,通过颠覆性的照明技术和极致创新的产品阵容,生动诠释了“感知光的力量”主题,成功聚焦全球照明行业的关注与赞誉。自1999年创办以来,两年一届的法兰克福照明展已成为国际照明领域最具影响力的盛会之一,可谓是行业热点风向标。此次,我们也邀请了艾迈斯欧司朗照明全球应用高级总监Vincent Chen,就展会现场热点和LED技术发
    艾迈斯欧司朗 2024-04-17 16:15 74浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦