北京大学视频编码算法研究室发布首个基于FPGA的4K超高清端到端智能视频压缩系统

作者:贾川民 发表时间:2022-04-11 来源:PKUVCL(微信公众号)

导语

本文分享了来自北京大学计算机学院视频与视觉技术国家工程研究中心马思伟教授团队的最新成果《FPX-NIC: An FPGA-Accelerated 4K Ultra-high-definition (UHD) Neural Video Coding System》。 团队在端到端视频编码算法及其硬件系统设计的取得了显著进展,研究了全神经网络智能视频编码算法,提出了一种全新的端到端视频编码模型,构建了首个面向4K超高清的全神经网络硬件编码系统(FPX-NIC), 分析了该智能视频编码系统的压缩效率、功耗开销和系统特性。FPX-NIC系统为全神经网络视频编码算法研究和实际落地应用做出了重要探索。

一、研究背景

当前“5G+超高清+人工智能”等新技术引发了新一轮重大原始创新,视频编码作为其中的核心研究主题之一正在发生深刻变革,朝着智能化(intelligent)、多样化(versatile)和可定制化(configurable)的方向迈进。 2020年11月3日,中共中央发布《关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》,明确指出要针对人工智能、集成电路等前沿领域。基于神经网络技术的端到端视频编码作为视频大数据与人工智能的前沿交叉重点研究领域, 从算法、模型、实现等多个层面打破了现有视频编码研究思路,建立了全新的研究范式。

端到端编码旨在建立以全局率失真优化为目标的神经网络结构,训练高度非线性模型实现信号保真测度下的最优紧凑表示。在这个问题上,近年来提出的方法通常从复杂网络模型设计,高阶熵模型等角度切入, 大幅提升了模型压缩效率,率失真性能超越了传统基于规则设计的混合编码方法。现有方法通常基于全局一致性假设、忽略了图像局部的纹理变化,缺乏内容自适应性,且对硬件智能编码方法和系统研究的探索不足。

二、方法

本文提出了一种高效基于分块压缩的端到端图像压缩网络,包括分块压缩(Block partition),自适应归一化(Adaptive normalization),主变换(Main transform),超先验变换(Hyper transform)以及块融合网络(Block fusion network)模块。 主变换采用了经典的全卷积网络和残差块结构,参数量少、易于训练,超先验变换以及熵模型的网络结构如图1所示。

图1 超先验网络结构以及基于自回归模型的上下文模型网络

块融合网络能够有效抑制分块压缩导致的压缩效应,提升重建视频图像的主客观质量。此外,针对压缩网络训练过程,提出了两步优化方法,该方法消除了网络训练和网络测试不一致导致的系统性偏差,实现了显著压缩性能提升。 文章还设计实现了神经网络编码器部署框架,支持从网络模型训练到边缘计算设备部署的全流程自动化处理,框架如图2所示。

图2 两阶段全流程神经网络编码器部署框架

三、系统研究

搭建了首个支持4K超高清全帧内模式的端到端视频压缩系统原型(FPX-NIC),包括超高清采集(UHD video capture)、神经网络编码压缩(Neural codecs)以及解码显示(Decode and display)等组件。 经过训练和部署的网络权重被部署于可重构的硬件计算单元中,实现了从视频采集到终端显示的端到端视频压缩,系统示意图见图3。

图3 FPX-NIC 4K超高清端到端视频编码系统

四、实验对比与系统特性

文章在端到端图像压缩领域广泛采用的多个数据集上进行了实验对比,包括Kodak数据集、Tecnik数据集和CLIC 2020 Professional Testset数据集。分别使用峰值信噪比(PSNR)和多尺度结构损失(MS-SSIM)作为失真度量, 码率单位是每个像素所需要的比特数(Bit-per-pixel,bpp)。本项工作与八种最先进方法进行了比较,涵盖了经典的图像编码格式JPEG、JPEG2000、BPG、视频编码标准参考软件HM和VTM以及多个神经网络图像压缩模型,所提出的方法大幅超越其他方法。

系统特性层面,FPX-NIC是首个面向4K超高清的端到端智能视频压缩系统,支持标清(1280x720)到高清(1920x1080)以及超高清(3840x2160)等多种分辨率编码。为了验证不同分辨率下编码的性能和系统特性, 文章测试了系统的端到端延迟、编码速度、运存开销以及各模块编码每一帧图像的功耗。在720p分辨率下,系统能够实现实时编解码。此外,该系统最高支持了4K超高清全帧内模式编码。

图4 FPX-NIC系统特性

论文链接

更多其他算法原理、实验结果、对比分析以及系统设计细节,请点击原文链接。

https://ieeexplore.ieee.org/abstract/document/9745965

引用格式

Chuanmin Jia, Xinyu Hang, Shanshe Wang, Yaqiang Wu, Siwei Ma, and Wen Gao, "FPX-NIC: An FPGA-Accelerated 4K Ultra-high-definition Neural Video Coding System," IEEE Transactions on Circuits and Systems for Video Technology, 2022.

原文链接