CK805

【CK805——面向AIoT领域的轻量级计算CPU核】

CK805是龙8自主开发的面向AIoT领域的轻量级计算CPU核产品。CK805采用128位宽的单指令多数据(SIMD)计算架构,支持8位/16位/32位数据的多路并行计算,最大可同时支持16路数据的并行计算。CK805重点针对人工智能、语音、音频、图像等应用进行了指令集的优化,实现了多达200条的矢量计算指令与矢量内存访问指令,支持乘累加、乘链加累加、乘移位累加等多种形式的MAC操作,以及地址递增、地址步进等多种模式的内存访问。存储架构上,CK805实现了哈佛结构的Cache子系统和TCM子系统,并配有64位AXI主设备接口、32位AHB从设备接口,方便用户针对不同场景进行存储架构的优化。

CK805主要技术特征

精简指令架构,32位数据,16/32位可变长指令

4级单发射、按序流水线

128位单指令多数据计算引擎

独立的16个128位矢量寄存器堆

指令与数据分离的高速缓存(Cache)

指令与数据分离的紧耦合存储器(TCM)

支持非对齐内存访问

支持顺序访问、步进访问等多种模式的数据预取引擎

表项数配置的内存保护单元(Memory guard uit)

可选的浮点处理单元


计算引擎主要技术特征

面向DSP/AI优化的128位矢量计算引擎

单指令多数据架构:支持16路8位/8路16位/4路32位的并行计算

支持的数据格式:整数/小数/复数

为CNN/RNN/LSTM/FCN/FFT等算法优化的指令子集,总计约200条指令

优化的指令执行延时

支持乘累加、乘移位累加、乘链加累加等多种形式的MAC操作

支持地址递增、地址步进等多种形式的内存访问

倒数/开方倒数/指数的定点数快速计算


CK805的应用领域

轻量级人工智能

语音

音频

图像


CK805结构与设计特点

CK805提供了128位宽的并行计算引擎,同时配备了128位宽的数据Cache和数据TCM,在提高计算能力的同时保证了充足的存储带宽。

CK805重点在计算能力和存储效率上进行了优化:针对CNN/RNN/LSTM/FCN等神经网络应用,CK805提供了高能效的定点数计算方案,并重点对8位数据的点积、矩阵等运算进行加速;面向16位数据的乘累加运算,CK805实现了高效的乘移位累加操作,牺牲少量的精度获得更大的计算并行性。

针对AI/DSP算法的数据存储特点,CK805提供了顺序地址访问、步长地址访问等多种方式的访存指令,并支持部分元素的访存操作,有效提高了算法的内存操作效率。
存储结构

针对算法类应用数据量庞大的特点,CK805提供了ping-ping架构的数据TCM,该数据TCM包括了DTCM0和DTCM1,可以支持CPU的内存访问与DMA的数据搬运的并行进行。

CK805可以支持单周期或者两周期的TCM访问,并且针对两周期的TCM访问优化了流水线,提高了流水线执行效率。同时,CK805在硬件层面提供了灵活的接口,使得客户可以在计算能力和频率之间进行调节,以获取最佳的处理器设计。