广告

充分利用人工智能,实现更为高效的下一代数据存储

时间:2019-04-18 作者:Noam Mizrahi(Marvell CTO办公室,技术副总裁兼首席科学家) 阅读:
人工智能 (AI)是对现代社会的各个领域带来重大影响的技术,这些领域包括电子商务、自然语言翻译、金融科技、安全、目标识别/检测乃至可快速确认危及生命癌细胞位置(或其他异常症状)的医学领域。尽管应用领域多样,但它们都有一个共同点:能通过采用一项可高效扫描大量非结构化数据(视频、文本、声音、图像等)并对其进行处理的技术,从而获取真正的价值。
广告

如今,数据生成的速度远超人们的想象。在以前,人是数据产生的主要来源;而现在,图像设备、传感器、无人机、互联汽车、物联网设备及工业设备组件等,以多样的途径生成各类格式的数据。 然而,我们不应该将数据与信息混为一谈,对两个概念进行区分至关重要。

从价值角度衡量,目前仅有一小部分已收集数据可称作是真正的资产。以图像处理设备为例,一分钟时长的相关活动于此至关重要,而非长时间的无关紧要的视频片段。以此类推,如果将“数据”比作矿山,人人想要挖掘的金块就是“信息”。将该类数据转变成有价值信息的能力(所谓“挖掘”)称为“分析”。


20190417shujucunchu1.png
图 1: 2009 年至 2020 年数据存储需求涨幅

图 1 所展示的图表由分析公司 Statista 绘制,显示了过去十年间数据存储容量呈现惊人的增长。据预测,截止 2020 年,存储需求将达到 42,000 EB以上。但是,绝大多数的数据存储(大多数估算显示占比至少为 80%)毫无结构化可言,在使用这类数据进行分析时,无疑会带来诸多困难。据估计,仅有 5% 的数据存储可以真正用于分析。如果有一种方式可以使用元数据在执行分析的环境中有效描述这类非结构化数据,则可以用来分析的数据量将显著增加,企业所拥有的数据可产生的价值将得到大幅提升。

人工智能 (AI)是对现代社会的各个领域带来重大影响的技术,这些领域包括电子商务、自然语言翻译、金融科技、安全、目标识别/检测乃至可快速确认危及生命癌细胞位置(或其他异常症状)的医学领域。尽管应用领域多样,但它们都有一个共同点:能通过采用一项可高效扫描大量非结构化数据(视频、文本、声音、图像等)并对其进行处理的技术,从而获取真正的价值。

具体而言,Marvell 不仅可以利用人工智能技术执行分析过程,还可以通过此技术前置处理非结构化的原始数据,以便为其提供标记的元数据,从而采用简单又准确的方式表示这类数据。通过上层分析软件可以分析此简化版数据库并从中收集有用的信息。在此之前,企业一直期盼通过人工智能技术从其存储的数据中发掘更多的价值,但却始终毫无头绪。

基于上述情况,Marvell 希望生成的元数据能够提升分析软件运行效率,并且将人工智能技术作为从大量非结构化数据库中创建元数据库的工具。现在只需要将大量数据导入人工智能计算机中进行处理即可。但是,这是否真的是正确的方法?

如果考虑到现在生成和存储数据的两种主要方式,即“云端” (‘the Cloud’) 和“边缘设备”(‘the Edge’),可以很快联想到移动这些大量数据将产生昂贵费用。有了新技术,这些可以得到有效解决。在云端传输大量数据,会对数据中心构建网络的基础设施带来压力,并会消耗大量电力及增加延迟水平,从而延长了整体处理时间。对于边缘设备而言,不同之处在于可用的计算机和电力资源有限。由于所在位置的小型设备的网络功能限制,因此无法将大量数据上传至云端。在这两种情况下,最大化操作效率的关键在于尽量减少移动数据量并使用元数据取而代之。

在来源处(例如存储设备中的数据存储位置)分配元数据会比四处转移数据更为高效。固态硬盘 (SSD)已经包含作为计算机实体所需的基本元素。这些设备通常只能用于与硬盘相关的操作,但也可以转换其用途,用于与功能相关的任务以及负责标记处理,或通过集成式硬件/软件/固件模块的辅助,实现上述功能。其中的一种操作模式为使用空闲的硬盘窗口执行后台映射任务,另外一种方式则为写入硬盘数据时同时对其进行处理。如果在存储位置部署这种加速方式并应用于正确的用例中,其益处不仅在于节约电量及费用,还可以尽量减少数据移动并大幅降低延迟,以及降低整体网络流量。此方式固有的可扩展性意味着企业和云服务提供商利用人工智能技术可扩展其业务范围。

去年八月在美国圣克拉拉举办的全球闪存峰会(Flash Memory Summit)上,Marvell 发表了极具开创性的 AI SSD概念验证控制器,展示了如何在不需要访问主机 CPU 处理资源的情况下,有效执行数据标记,同时避免上述提及的费用和延迟问题。Marvell 现场向参会者展示了 Marvell 数据中心及使用开源 NVIDIA 深度学习加速器 (NVDLA) 技术的客户端 SSD 控制器 IC 如何继承受过训练的人工智能模型,将其编译到集成式人工智能推断IP,以及在硬盘中扫描存储于本地的非结构化数据的大型数据库(例如视频库)。由此可生成标记并在搜索环境中创建可代表数据的元数据库。

如果将检测和识别物体或场景作为目标,人工智能推断引擎可扫描存储于硬盘的视频文件,并创建可列出其出现时间点的元数据。基于这项新型人工智能增强存储技术,可在固态硬盘中本地存储元数据库并可供分析软件使用。

当执法机构在时长无休止的视频文件中寻找可疑点时,他们可以加载受过训练的模型。该模型能够准确辨别上述可疑点并可在所有适用的视频内容中进行推断,此类推断可作为后台任务运行于所有存储视频内容的硬盘中。这种方式可以记录及标记上述可疑点的踪迹,更易于后续进行深入分析。

同样,此架构会使类似于后台聊天机器人 (ChatBot)的分析更为高效,此类分析涉及需要扫描聊天机器人通话的大型数据库以便改善服务质量。通过上述做法,可以判断用户在何时对其收到的回复感到满意/生气,或者通话时长是否合适等。创建可追踪这些判断标准的人工智能模型后,则可将这些标准编译到人工智能存储推断引擎内,并离线扫描通话。对于类似于电视点播(VOD)服务的个性化广告插入、人物/物体搜索及利用数据近似度的各种密集型输入/输出 (IO-intensive)用例,其也可带来明显的性能优势。

在无需昂贵的定制化 IC 的情况下,Marvell 首创的人工智能 SSD 控制器技术展示了如何执行新型数据存储架构以处理难以计算的“大数据”相关应用程序的扩数据阵列。通过向市场中已有的固态硬盘硬件提供更为智能化的附加逻辑的访问,可直接处理对下一代分析工作负载至关重要的元数据和标记,而无需连接专属处理资源。

遵循这种依赖传统集中式处理的替代策略,可使整个过程更为高效。只需占用最少的可用网络带宽,并且不会发生瓶颈问题。将人工智能加速器直接集成到具有成本效益的固态硬盘控制器 IC 中,可快速完成分析任务,不仅可以减少处理容量及降低相应的电费预算,还可以完全避免从头开发专属集成电路芯片(ASIC)的需求。 可编程架构的使用为更新所用人工智能模型带来诸多便利条件,以便在开发新用例时随时解决任何问题。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 传奇AI公司现身超算中心,心中对手只有英伟达 Habana Labs日前宣布,其人工智能(AI)训练和推理加速器将为加州大学圣地亚哥分校圣地亚哥超级计算机中心(SDSC)的Voyager超级计算机提供高性能的AI计算能力,计划于2021年秋季投入使用。
  • 国产CPU的技术研发线路和安全可信生态建设 在今年的IC领袖峰会上,来自天津飞腾的郭御风博士受邀作了题为“算力数智世界,用芯携手未来”的演讲。笔者借此机会专门采访了郭御风博士,并就国产CPU研发现状、技术线路规划和生态建设进行了深入交流。
  • 未来几年会出现哪些GaN 创新技术? 现在GaN很火 ,人们似乎忘记了GaN 依然是一项相对较新的技术,仍处于发展初期,还有较 大的改进潜力和完善空间。本文将介绍多项即将出现的 GaN 创新技术,并预测未来几年这 些创新技术对基站设计和发展的影响。
  • 重一步逻辑验证,省百步漏洞补缺 一款软件从设计到实现,往往会被拆分成许多小的功能模块,分别实现后再组装整合。大量简单的业务逻辑被用于构建复杂而又丰富的业务逻辑,设计或实现上的偏差或缺陷都会导致漏洞的产生。
  • “无尽边界法”尚未落定,美国参议院又拟对半导体立法 4月7日,美国总统乔·拜登(Joe Biden)表示,美国参议院正准备就半导体立法。目前,美国正在努力解决汽车、电脑等设备中使用的关键技术持续短缺问题。不过在去年,美国两党议员就曾共同提出一项名为《无尽边界法》(Endless Frontier Act)的议案,旨在通过增加对未来技术的投资来巩固美国在科学技术创新方面的领导地位。
  • 传小鹏自研自动驾驶专用芯片,中美两地同步进行 据36氪援引消息人士报道,小鹏汽车正在自研自动驾驶芯片,项目已经启动数月,在中美两地同步进行,目前团队规模10人以内。如果进展顺利,有望在今年底或者明年初流片。
  • 千亿级别的暴涨与暴跌的比特币为啥 比特币暴跌20%或有400亿美金资金爆仓,显卡行业也深受波及,而这背后一方面是政府的禁令频发,另一方面金融犯罪的案例被推到了台面上,再加持众多资本狂割韭菜使得整个市场乌烟瘴气。而纵观发展历史,速度快的CPU为何没有用武之地呢,本文来带你一探究竟。
  • EE快讯——华为2021第18届全球分析 2021年4月12日,华为在深圳举办了第18届华为全球分析师大会,会上华为徐文伟提出了未来10年九大技术挑战与研究方向;轮值董事长徐直军表示:6G比5G快50倍,将在2030年左右推出,同时表示要提升软件能力减少芯片依赖,对海思的态度是养得起,也会一直养着,对于业界一直猜测的麒麟9000芯片库存还有多少,徐直军表示:华为的库存可以支撑公司活得更长一点。另一方面,欧菲光的前途终于有了结果...
  • 紫光展锐:大破大立,做数字世界的生态 4月20日,以“构go”为主题的2021紫光展锐创见未来大会在线上举行。会上,展锐重磅发布了5G业务新品牌——唐古拉系列,推出了Cat.1bis新技术特性,并分享了创新业务AR领域的最新商用进展。此外,展锐重申了公司产业定位——数字世界的生态承载者,并公布了对消费电子业务和工业物联网领域的前瞻预见和战略规划。
  • 安谋中国发布全新“山海”S12解决 安谋中国今天发布面向 AIoT 系统的全栈安全解决方案“山海”S12,包含硬件加解密引擎、安全软件和安全服务三大部分,从芯片的安全 IP 层到云端安全应用和安全管理提供全链路的安全保护。“山海”S12可以广泛应用于智能手机、平板、智能电视及安防等行业,为多种安全解决方案如数字版权保护、AI 安全、身份认证等提供基础安全能力。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了