本文主要解释许多交叉验证技术中的一些技术及其工作原理。

本文主要解释许多交叉验证技术中的一些技术及其工作原理。

介绍

考虑在数据集上创建模型,但它在看不见的数据上失败。我们不能简单地将模型拟合到我们的训练数据中,然后坐等它在真实的、看不见的数据上完美运行。

这是一个过度拟合的例子,我们的模型已经提取了训练数据中的所有模式和噪声。为了防止这种情况发生,我们需要一种方法来确保我们的模型已经捕获了大多数模式并且不会拾取数据中的每一点噪声(低偏差和低方差)。处理此问题的众多技术之一是交叉验证

了解交叉验证

假设在一个特定的数据集中,我们有 1000 条记录,我们train_test_split()在上面执行。假设我们有 70% 的训练数据和 30% 的测试数据random_state = 0,这些参数导致 85% 的准确度。现在,如果我们设置random_state = 50假设准确度提高到 87%。

这意味着如果我们继续选择不同random_state的精度值,就会发生波动。为了防止这种情况,一种称为交叉验证的技术开始发挥作用。

交叉验证的类型

1. 留交叉验证 (LOOCV) 

LOOCV中,我们选择 1 个数据点作为测试,剩下的所有数据都将是第一次迭代中的训练数据。在下一次迭代中,我们将选择下一个数据点作为测试,其余的作为训练数据。我们将对整个数据集重复此操作,以便在最终迭代中选择最后一个数据点作为测试。

通常,要计算迭代交叉验证过程的交叉验证 R²,您需要计算每次迭代的 R² 分数并取它们的平均值。

尽管它会导致对模型性能的可靠且无偏的估计,但它的执行计算成本很高。

2. K-fold 交叉验证

K-fold CV中,我们将数据集拆分为 k 个子集(称为折叠),然后我们对所有子集进行训练,但留下一个 (k-1) 个子集用于评估训练后的模型。

假设我们有 1000 条记录并且我们的 K=5。这个 K 值意味着我们有 5 次迭代。对于测试数据要考虑的第一次迭代的数据点数从一开始就是 1000/5=200。然后对于下一次迭代,随后的 200 个数据点将被视为测试,依此类推。

为了计算整体准确度,我们计算每次迭代的准确度,然后取其平均值。

我们可以从这个过程中获得的最小准确度将是所有迭代中产生的最低准确度,同样,最大准确度将是所有迭代中产生的最高准确度。

3.分层交叉验证

分层 CV是常规 k 折交叉验证的扩展,但专门针对分类问题,其中的分割不是完全随机的,目标类之间的比率在每个折中与在完整数据集中的比率相同。

假设我们有 1000 条记录,其中包含 600 条是和 400 条否。因此,在每个实验中,它都会确保填充到训练和测试中的随机样本的方式是,每个类的至少一些实例将是存在于训练和测试分裂中。

4.时间序列交叉验证

时间序列 CV中有一系列测试集,每个测试集都包含一个观察值。相应的训练集仅包含在形成测试集的观察之前发生的观察。因此,未来的观察不能用于构建预测。

预测精度是通过对测试集进行平均来计算的。此过程有时被称为“对滚动预测原点的评估”,因为预测所基于的“原点”会及时前滚。

使用 Scikit-learn 的实际实现的代码请关注我们或联系作者获取。

结论

在机器学习中,我们通常不想要在训练集上表现最好的算法或模型。相反,我们需要一个在测试集上表现出色的模型,以及一个在给定新输入数据时始终表现良好的模型。交叉验证是确保我们能够识别此类算法或模型的关键步骤。

责编:Challey
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
“数字时代的关键资源是数据、算力和算法,其中数据是新生产资料,算力是新生产力,算法是新生产关系,三者构成数字经济时代最基本的生产基石”。亿铸科技聚焦国产存算一体AI大算力芯片,28纳米工艺实现10倍能效比。
整体来看,在美国不断加大制裁与限制之下,中国半导体设备厂商必将坚定自主自造的决心,进一步提升国内厂商供应链安全意识,推动供应链本土化建设。而高端GPU也将如此。
人机交互发展,验证码是如何演变进化的?Google训练AI竟然是白嫖用户……
这两年电子产业的一个大热门是AI技术——人工智能。AI/ML技术已经渗透到了很多行业中。新思科技全球资深副总裁、新思中国董事长兼总裁葛群在大会主题演讲中列出2022年最火的几个赛道涵盖了:自动驾驶/ADAS、硅光芯片、量子计算、XPU、新能源、AR/VR、类脑芯片。
元宇宙是互联网的未来,也就是空间互联网,它存在于一个多维的虚拟世界。很快,元宇宙就将开启高度沉浸式、可定制的数字体验新时代,模糊物理世界和数字世界之间的界限,面向消费者和企业催生令人激动的新用例。 
在人工智能这条赛道上的玩家,最终比拼的是技术落地能力,这也是衡量AI实力重要依据。未来,寒武纪能否凭借自身研发实力,不断推动技术产业化落地,还将面对芯片市场“大浪淘沙”的严峻考验。
由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

OPPO K10x搭载5000mAh大容量电池与67W超级闪充,一次充电可带来1.3天的续航使用,同时,OPPO 67W超级闪充方案,33分钟即可从1%充到80%。搭载120Hz LCD高刷屏和高通骁龙695 5G移动平台,采用金刚石智冷散热系统,4种不同的散热材料搭配4颗温度传感器,在手机散热的同时,实时感知手机温度并进行智能控温,大幅提升手机温控效果。
海洋光学(Ocean Insight)与等离子蚀刻技术的领先创新者合作,探索适用于检测关键晶圆蚀刻终点的全光谱等离子监测解决方案。

最近听说有人开始囤TI(德州仪器)型号为TPS92692-Q1电源管理芯片,这颗芯片主要用在汽车大灯上,囤的数量还不少。没错,就是今年3月,深圳疫情,有人在华强北被人群挤掉一盘料后在朋友圈悬赏100万
关注我们更多精彩等你发现!END往期精选   【免费】FPGA工程师招聘平台简谈FPGA设计中系统运行频率计算方法与组合逻辑的层级SANXIN-B01开发板verilog教程V3电子版学员笔记连载 |
--关注回复“40429”--↓↓领取:《汽车驾驶自动化分级》(GB/T 40429-2021)↓↓2021年11月,国外的滑板底盘公司Rivian正式上市;12月,国内悠跑科技也发布了悠跑UP超级底
免责声明:内容如有侵权,请联系本部删除!(手机微信同号15800497114)来源:中科智芯近日,江苏中科智芯集成科技有限公司二厂智芯集成进入设备入场安装阶段。本次入场设备化镀机分为六个单元,目前该设
9月15日晚,广汽埃安旗下的超跑车型 Hyper SSR 正式发布,该车型号称是“中国第一超跑”,零百加速仅需1.9秒。值得一提的是,该车将搭载900V SiC电驱。据“行家说三代半”此前报道,7月1
点此查看:2022年PCB行业创新分享会通知广告分割线近日,奥特斯与重庆康仕德建设工程有限公司再次就环保项目达成合作。经过益科德(上海)有限公司为期三天的进场培训后,康仕德环保建设团队正式进入重庆奥特
随着HDI板市场的迅速发展,电子产品的微型化,高集成化程度越来越高。HDI孔从简单的盲埋孔逐渐发展到多阶叠孔,电镀填孔起到重要作用。01电镀填孔的优势➤ 改善电气性能,有助于高频线路板设计,提高连接可
免责声明:内容如有侵权,请联系本部删除!(手机微信同号15800497114)来源:9月14日,有研半导体硅材料股份公司(以下简称“有研硅”或公司)科创板IPO注册获证监会同意,公司将刊登招股资料,启
做一个小项目 - 用小脚丫FPGA来测光,体会如何用全数字器件测量模拟信号。测量环境光的变化最简单、便宜的器件就是LDR,也称之为光敏电阻,适用于检测环境光的强度和环境的亮度。由于它体积小巧、便宜,易
点此查看:2022年PCB行业创新分享会通知广告分割线拼搏三季度,江西九江经开区积极统筹疫情防控和经济社会发展,全力推进重点项目建设,以奋进姿态迎接党的二十大胜利召开。金秋时节,仁创艺电子项目现场一派