人机交互发展,验证码是如何演变进化的?Google训练AI竟然是白嫖用户……

随着社会的发展,我们在生活中会碰见很多乍一看莫名其妙,令人匪夷所思之事,但是后面细细想来还挺有意思的事,比如前些日子网络上热议的,你要证明一下,你爸是你爸或者你妈是你妈。这个事情我们暂且不议论政策方面,单就如何来验证来看一下,网络发展到今天,验证码是如何演变进化的。

什么是验证码

验证码是用来全自动区分计算机和人类的公开图灵测试,英文全称为Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA,是一种区分用户是机器或人类的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于机器无法解答CAPTCHA的问题,回答出问题的用户即可视为人类。

其实在互联网初期,本来是没有验证码的,用户输入账户和密码可以自由畅行网络,匿名论坛和各种小站层出不穷,随着信息化和用户交流越来越频繁,一些计算机爱好者开发出各种自动化工具来模拟用户行为,从而完成一些机械重复的上网操作,其中以穷举破解密码,海量垃圾邮件为首的恶意行为让服务商头疼不已,所以验证码也就应运而生。

历史上第一个验证码

2000年左右的黑客真的全是传奇人物,他们编写的垃圾邮件软件能够每天给一个用户发送数百封垃圾邮件,Yahoo(雅虎)公司作为全球最大的邮件供应商之一深受其害,其免费邮箱每天发出海量的垃圾邮件,Yahoo公司既不能审查其内容,又没有那么多的忍受来管理和监控,管理层不得已找到卡内基梅隆大学的一个团队,时年21岁的助理luis Von ahn反其道而行之,在研究了垃圾邮件机器人的工作手法后,设计了一套在用户发送邮件前把机器人“晒出来”的方法,通过简单但是内容庞大的图灵测试来筛选出机器人。经过团队大量研究发现,人们能够很好的识别一张图片中包含的文字形状信息,一些扭曲变色旋转后的文字也能在五秒钟时间内辨识出来。

图源网络,为验证码示意,非第一个验证码

于是乎,每天互联网上海量烦人的验证码应运而生,据统计全球网民每天要输入将近2亿次,假设每次前后花费10秒钟,总共花费将近55万小时。路易斯灵机一动,把目光投向了文字识别,尤其是那些古籍和变体字的识别上来,很多珍贵的报纸书刊和古籍可以快速获得影音版,再把这些图片拆成一段段的单词片段,把一个个的小片段发给用户利用人海战术来完成大量的文字识别工作。

这里不禁有人要问,发给用户一张图片,系统自己都没识别过不知道正确答案,用户胡乱输入岂不是乱套了吗?这时候路易斯又设计了一个巧妙的系统,二次验证码

reCAPTCHA巧妙之处

路易斯设计了一次让用户输入两张图片中的验证码,而且当时很多用户乐意为了古籍识别出一份力,所以大家起初的识别率还是很高的,但是有些用户看出来,如下图像中,一个单词扭曲变形程度比另一个大得多,似乎两个验证码有一个是假的,于是有一些用户为了捣乱故意输错,当时是给识别系统带来不小的困扰。

所以路易斯又巧妙的设计了,孪生验证码,通过两个单词变形一样或者加入一样的遮挡线来让用户分辨不出哪个是想识别的哪个是已经识别的。例如我们想让用户识别“morning”这个单词,那我们就要让一个已知的单词经过被用户验证过的变形来扭曲“morning”这个单词,如果两个单词都能被认出,那么再在多个用户眼里都得到相同的结果,那么系统就可以认为这个单词被搞定了。

各种变体层出不穷

接下来就是各路神仙发挥自己想象力的时代了,很多黑客利用广告垃圾邮件赚的盆满钵满,验证码一出无异于断人财路,杀人父母啊。所以破解之法也在不断升级,简单扭曲的字母需要构造验证码库,而暴力比对的穷举法可以识别出一个字母的各种变形体,只要准备足够多总能认出来。

很快被破解后,程序员们又创造出来gif版本的动图验证码,一直在变化的验证码,让难度提升不少,伴随而来的还有数字+英文+杂散图案等混淆的验证码,也是火热了一段时间,但是随着识别技术的发展,以像素为单位提取的方法也把这种验证码攻克了。

后来程序员们发现电脑最擅长做准确重复的操作,要是加上一些藏在图片里的逻辑,对于电脑来说就变得困难了,很多论坛都采用了问答式的验证码,各种问题内部包含千丝万缕的逻辑,对于机器来讲实在有够难的。

下面重点说说,几乎13亿人都会碰见的物品图片验证码了,最有名的当属12306的登录验证了,据说头一年上线的时候,正确率仅为8%,官方为了遏制黄牛可以说设计了最难的系统,一般设计图片点击类的十几种类别也就够了,但是据网络流传称,12306后台有多达581种类目的图片供用户识别。

网友恶搞12306验证码过于难(图源网路恶搞图片,意在调侃难度太大)

像是动物电器和天体等都是应有尽有,用户日常生活常见的物品都可以拿来识别,再加上不同颜色形状和角度,可以说破解起来难度极大,好像现在还没有能够完完全全破解了的软件啊。

Google薅羊毛来训练AI

等到了现今,短信和面部识别是最常见的两种方式,得益于手机行业的迅猛发展,但是反过来想,国外很多人十分注重隐私很多时候不想提供手机号使得短信验证码走不通,所以Google这样的大公司还是以图片验证为主,但是这个其实也是一个延续着上述人海识别战术的“小伎俩”。通过用户的验证码悄悄进行着后台的AI训练,给图片标注区分来训练AI,像是最最最常见的路灯、路标都是为了Google自动驾驶的贡献一份力。

所以小编建议,大家可以在日后的简历里面写上,曾经参与过Google自动驾驶项目核心图像识别模块验证和训练。但是面试官再深入问起来,大家可不要把我卖了哦。但是却是是大家在帮助Google训练数据,提升AI的准确度。reCPATCHA自己也在官网公告每天有数以百万的人帮助构建机器学习的数据集,也就是说只要你每天用了验证码就给Google打了五秒钟的工,别小看这五秒钟,几百万人的基数还是很庞大的数字啊。

历年都有互联网恶心人发明排行榜,验证码已经霸榜数十年了,并且一直名列前茅。不过现在有所好转,浏览器会通过分析用户的环境和键盘鼠标的操作轨迹来识别,但是背后涉及到的隐私和监控等问题也一直是讨论的焦点,所以在没有革命性的新技术到来前,用户还得苦哈哈的忍受着各种验证码的折磨。我们也在期待着有一天我上网不再被问“你是不是机器人啊?”

责编:我的果果超可爱

参考自:

《CAPTCHA》----Wikipedia

《reCAPTCHA》----Google Developer

《“ 验证码(CAPTCHA)“的演变史》----Blog

《你以为自己在填验证码,其实你是在给Google义务劳动》----新浪博客

责编:Raylei
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
“数字时代的关键资源是数据、算力和算法,其中数据是新生产资料,算力是新生产力,算法是新生产关系,三者构成数字经济时代最基本的生产基石”。亿铸科技聚焦国产存算一体AI大算力芯片,28纳米工艺实现10倍能效比。
整体来看,在美国不断加大制裁与限制之下,中国半导体设备厂商必将坚定自主自造的决心,进一步提升国内厂商供应链安全意识,推动供应链本土化建设。而高端GPU也将如此。
元宇宙是互联网的未来,也就是空间互联网,它存在于一个多维的虚拟世界。很快,元宇宙就将开启高度沉浸式、可定制的数字体验新时代,模糊物理世界和数字世界之间的界限,面向消费者和企业催生令人激动的新用例。 
在人工智能这条赛道上的玩家,最终比拼的是技术落地能力,这也是衡量AI实力重要依据。未来,寒武纪能否凭借自身研发实力,不断推动技术产业化落地,还将面对芯片市场“大浪淘沙”的严峻考验。
从前些年开始,AI模型参数规模就以每3个月提高一倍的速度在发展,燧原科技创始人兼COO张亚林在WAIC “AI领Show”的主题演讲中说:“模型参数已经到了千亿,甚至往万亿级规模。”这是大规模算力方面的需求;加上训练并行的变迁,大规模集群是AI计算的必需品。
当芯片产业在一二线城市得到了大力支持,遍地开花、欣欣向荣的局面下,是否有过热隐忧的问题?智能汽车是人工智能落地很好的载体,也有望成为移动服务器。但汽车电子的起量速度远慢于消费电子,手机可以卖上千万,那汽车能卖多少?于AI芯片企业来说,又该如何在创新中生存,在生存中发展?
由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

OPPO K10x搭载5000mAh大容量电池与67W超级闪充,一次充电可带来1.3天的续航使用,同时,OPPO 67W超级闪充方案,33分钟即可从1%充到80%。搭载120Hz LCD高刷屏和高通骁龙695 5G移动平台,采用金刚石智冷散热系统,4种不同的散热材料搭配4颗温度传感器,在手机散热的同时,实时感知手机温度并进行智能控温,大幅提升手机温控效果。
海洋光学(Ocean Insight)与等离子蚀刻技术的领先创新者合作,探索适用于检测关键晶圆蚀刻终点的全光谱等离子监测解决方案。

关注我们更多精彩等你发现!END往期精选   【免费】FPGA工程师招聘平台简谈FPGA设计中系统运行频率计算方法与组合逻辑的层级SANXIN-B01开发板verilog教程V3电子版学员笔记连载 |
--关注回复“40429”--↓↓领取:《汽车驾驶自动化分级》(GB/T 40429-2021)↓↓2021年11月,国外的滑板底盘公司Rivian正式上市;12月,国内悠跑科技也发布了悠跑UP超级底
Vishay 拥有广泛的二极管解决方案,以满足您的各类设计要求。运用专业技术,我们的专家在性能与成本之间寻取适当的平衡,在缩短开发时间的同时加速上市。 点击了解产品详情:肖
--关注回复“SOA”--↓↓领取:面向智能车辆开发的开放性SOA方案↓↓转载自汽车行业关注,文中观点仅供分享交流,不代表本公众号立场,如涉及版权等问题,请您告知,我们将及时处理。-- END --
“进入9月,受疫情和全球经济持续低迷的影响,全球智能手机市场需求依旧疲软,消费者换机欲望下降,平均换机周期延长,尽管在旺季效应的带动下,终端品牌的整机库存在逐渐消耗,但在中低端产品项目上,品牌厂商的备
免责声明:内容如有侵权,请联系本部删除!(手机微信同号15800497114)来源:第三代半导体产业又迎来新的发展机遇。近日,在新能源汽车、芯片以及光储等行业的需求高涨背景下,第三代半导体产业又迎来新
关注我们更多精彩等你发现!END往期精选   【免费】FPGA工程师招聘平台简谈FPGA设计中系统运行频率计算方法与组合逻辑的层级SANXIN-B01开发板verilog教程V3电子版学员笔记连载 |
9月14日消息,据业内爆料称,联想自研芯片已经流片成功,采用了5nm工艺!消息称,联想全资子公司鼎道智芯研发的5nm芯片已经回片并在最近点亮,也就是说流片成功,接下来可以进入规模量产阶段。下一步将会进
在新冠疫情期间,我们见证了很多不同寻常的事,其中之一就是供应链困局可能会给很多人带来影响。尤其是汽车行业的供应链十分复杂。现在即便是普通消费者也知道半导体芯片对当今日益智能的汽车有多重要,如果芯片供不
9月15日晚,广汽埃安旗下的超跑车型 Hyper SSR 正式发布,该车型号称是“中国第一超跑”,零百加速仅需1.9秒。值得一提的是,该车将搭载900V SiC电驱。据“行家说三代半”此前报道,7月1