Alveo助力快手打造核心业务技术护城河

FPGA开发圈 2021-12-08 12:00

ASR 是电子商务、短视频、直播等众多应用的核心技术之一。在快手,ASR 有许多应用场景,是快手 APP、直播、风控、游戏等众多业务的核心功能,尤其是在直播和短视频应用领域。


目前,ASR 已成为快手各种创新服务的核心技术之一。从广受播主们喜爱的直播间小快机器人(语音助手),到快手 APP 语音搜索、直播间语音输入法、语音魔法表情,再到一甜相机实时字幕、快影自动字幕服务等,ASR 正助力快手为全球数亿用户带来前所未有的创新体验。


快手将赛灵思 Alveo 加速器卡应用于 ASR 服务,是 FPGA 在国内大规模直播及短视频自动语音识别场景落地的首个成功案例。2021年中以来,优化的ASR 服务已经在快手直播及短视频应用平台广泛部署,目前有数亿用户正在享受其所带来的前所未有的语音识别体验。


12 月 9 日,在 Xilinx Adapt – 中国站数据中心专场,快手异构计算团队高级工程师杨超将讲解快手与赛灵思的合作案例,欢迎点击下方图片报名


需要一个可以完全定制的专用平台,能通过软硬件协同设计确保精度符合各种不同业务的标准。


在快手之前基于CPU框架的处理流程中,特征提取等前处理模块运行时间占比约为 5%~10%, TDNN+LSTM 声学模型运行时间占比约为 60%~80%,而包含语言模型的解码器部分运行时间占比约为 15%~30%。


快手异构计算中心团队认为,以 TDNN+LSTM 为主结构的流式声学模型优化的关键痛点有三个,那就是时延(Latency)、实时率(RTF,Real Time Factor)和并发数(Concurrency),具体而言需要解决如下问题:

缩短时延,为用户提供实时的流式语音识别ASR体验。

提高并发数,保障海量流式数据并发处理的带宽需求。

提供灵活性及易用性,满足现有多业务模型的特点。如可以同时运行多个模型,可以多模型实时任意切换,且能满足未来模型的升级换代。

降低单位算力成本,实现更低总拥有成本。

满足AI 算法的高精度需求。

此外,快手对GPU 进行了评估,发现其硬件使用率比较低,不能满足RTF需求,SRAM 容量也无法满足TDNN+LSTM模型高并发性的需求。

Alveo U50 数据中心加速器卡基于赛灵思高性能 UltraScale+ 架构,采用高效的 75 瓦小型封装,而且配备了 100 Gbps 网络 I/O 和高带宽内存。这些特性为快手的 ASR 解决方案提供了关键的低功耗、高带宽、大 SRAM 内存和小尺寸优势。而Alveo U50LV  (Low Voltage)则是 U50 系列的低电压版本,和标准电压版本相比,功耗更低,散热要求更少。

快手各种器件选型比较

结合公司自研的定点通用推理框架和定点 C 模型,快手基于Alveo U50LV 及赛灵思相关 Vitis HLS 高层次综合及 Vitis Design Flow,从算法、系统、软件和硬件等多个关键层面对ASR 系统进行了多方位的创新, 应用了多项最先进的优化技术。

借助赛灵思 Alveo 加速卡及相关设计工具,快手最终实现了针对 TDNN+LSTM 声学模型的全定点推理硬件加速方案,全面优化了 ASR 服务,实现了:

1

大幅减轻了CPU 的工作负载,将单台服务器并发路数提升 7.5 倍。

2

大幅降低了端到端时延,平均缩短达 37.67% 。

3

大幅缩减了系统总成本,降至0.29 (相当于总成本锐减 71% )。

4

大幅缩短了开发周期。通过采用OpenCL实现了与现有业务无缝集成,并借助 Vitis Design Flow将设计周期从3个月减少到6周。


刘凌志博士

快手异构计算中心负责人


我们认为理想的 ASR 加速解决方案,是可以支持高带宽、大 SRAM 和定点推断的硬件平台,赛灵思的 Alveo FPGA U50LV 完全符合我们的要求。

欢迎参加 Xilinx Adapt – 中国站数据中心专场直播,聆听快手专家详细分享赛灵思 Alveo 平台如何助力快手实现多重 ASR 创新。

扫描下方二维码锁定座位吧!


FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论 (0)
热门推荐
X
广告
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦