SiFive 博客
来自 RISC-V 专家的最新洞察与深度技术解析

SiFive Performance™ P570 Gen 3 深度解析:面向下一代消费级与商用应用的高性能能效设计
引言
SiFive 的核心是 RISC-V,这是 SiFive 创始人在公司成立 5 年前发明的指令集架构 (ISA)。SiFive 正持续演进基于 RISC-V 的 IP 基础模块,重新定义并推动各类计算平台的普及化发展。在技术领域,演进并非一串随机变化的时间线,而是一系列精心规划、环环相扣的里程碑。每一步演进都会创造一系列新的环境条件,从而推动下一次更复杂的跨越成为必然。要赢得这场竞赛,关键在于具备适应变化的灵活性与持续创新能力,而这两点正是 SiFive 与 RISC-V 的核心价值观所在。
这也引出了本文的主题:SiFive 乱序执行核心的演进,以及第三代 P550 和 P570 性能核心 IP 的正式发布。
SiFive P500 系列发展历程

第一代 P550 是 SiFive 首款乱序执行核心,采用 13 级流水线、三发射乱序执行架构,兼容 RISC-V RV64GBC 指令集;即面向通用场景的基础 64 位配置文件,并集成位操作扩展以提升性能。该 IP 是 HiFive Premier P550 开发板的核心,为推动 RISC-V 软件生态中的开发者生态建设发挥了关键作用。
随着混合标量与向量工作负载的应用需求不断增长,第二代产品 P450/P470 应运而生。第二代延续了同样经过打磨的乱序执行架构,并在此基础上增加了向量流水线以及更为精密的加载和存储单元,以平衡标量与向量的加载和存储操作。
第三代产品则相较于前两代引入了三级存储层次结构。除指令缓存和数据缓存外,P550/P570 还新增了可选的二级缓存,支持单个集群内最多 4 个核心共享;同时还有三级缓存,支持最多 4 个集群共享。与第二代每核独享二级缓存的设计相比,新架构在单线程运行且其它核心空闲时,可以让单个核心使用整个核心复合体中的全部共享缓存资源。这有助于提升单线程性能,而单线程性能对于低时延场景尤为重要,例如应用启动等对服务质量要求较高的使用场景。
P550/P570 的存储带宽实现了翻倍。更宽的数据总线意味着每个时钟周期可以传输更多数据。同时,客户现在可以配置二级和三级缓存缓冲区,以管理“在途”存储操作,从而覆盖访问延迟。
第三代产品在其他方面也有诸多增强,尤其是在功耗管理和中断架构方面。关于第三代架构的更深入技术解析,后续还将发布专门的技术说明文章,敬请关注。
在指令集架构层面,该架构也紧跟 RISC-V ISA 从 RV64GBC 到 RVA22 的演进步伐,在确保 Linux 等完整操作系统具备良好可移植性的同时,为 64 位应用处理器定义了一组最低强制 ISA 特性,其中包括用于虚拟化的 “H”(Hypervisor)扩展。着眼于下一阶段的重要 ISA 演进——RVA23 ISA Profile,第二代 P470/P450 在架构中逐步加入了对向量与向量加密扩展的支持,并兼容 RVV 1.0,这是 RISC-V 首个正式批准的向量处理规范。因此,第二代 SiFive Performance IP 的 ISA 配置文件更接近 RVA22++(这并非官方 RVA 配置文件名称)。它不仅远超 RVA22 所要求的最低 ISA 配置,还集成了大量可选 ISA 扩展,因此第二代 P470/P450 与后续正式形成的完整 RVA23 Profile 已经非常接近。这也为迎接 ISA 演进的下一个里程碑,即完全批准的 RVA23 Profile,奠定了重要基础。
RVA23
RVA23 于 2024 年底正式批准发布,是一项面向高性能计算、移动及工作站硬件的重大版本更新。它构成了 RISC-V Android ABI 的基础,将向量、安全/Hypervisor 及密码学扩展设为强制性扩展,同时新增了安全领域的可选扩展(例如:Landing Pads 和 Shadow Stacks)以及性能领域的可选扩展(半精度浮点运算)。下表展示了 RVA23 ISA Profile 的完整范围以及 SiFive 产品对相关特性的支持情况。

RVA23 的引入,使得 Canonical (Ubuntu) 和 Red Hat 等软件提供商能够构建标准化、优化后的二进制程序,并在所有兼容 RVA23 的 CPU 上直接运行,而无需针对每一款芯片进行单独编译。RVA23 是 RISC-V 生态持续且必然演进过程中的关键里程碑,它奠定了软件在不同 RISC-V 硬件实现间可移植的基础。几年之后再回顾今天,我们认为这将被视为推动 RISC-V 大规模采用的关键因素。
P570 Gen3:SiFive RISC-V 乱序执行核心演进过程中的重要里程碑
第三代 P550/P570 继承了第一代 IP 的架构血统,同时在第二代 P450/P470 的改进基础上持续构建,进一步提升了功耗、漏电控制与性能(见下图)。最为关键的是,第三代 IP 不仅满足 RVA23 Profile 的要求,而且实际上已经超出了该规范范围。总体而言,在满足合规所需的扩展之外,第三代 P550/P570 还默认集成了所有新增的强制性扩展。我们还新增了对多项产品级扩展的支持,涵盖增强安全、向量密码学、提升向量吞吐量、控制转移记录以及支持更多 AI 数据类型(如 FP16/BF16)。

与第一代 P550 相比,第三代 P570 的 Specint_rate2017/GHz 提升了 13%,Geekbench/GHz 提升超过 2 倍。

与第一代 P550 相比,第三代 P570 实现了 13% 的动态功耗节省,漏电流降低超过 50%(注:上述数据基于 TSMC 12nm 工艺节点)。SiFive 已在 TSMC 3nm 和 TSMC 12nm 两个工艺节点上实现了该核心,以覆盖从高性价比到高性能的不同需求区间。
与第二代相比,第三代的向量流水线增强了向量点积扩展。该扩展最初由 SiFive 自主研发,现已捐赠给 RISC-V International 以加速批准流程。得益于这些扩展,特定 AI 工作负载的性能获得了显著提升,尤其是使用卷积神经网络 (CNN) 进行图像分类、目标检测和图像分割的场景。对比第二代与第三代的部分 Geekbench 子项测试即可明显看出这一差距。以目标检测为例,相比第一代 P550 提升了 21 倍,相比第二代 P470 提升了 4.5 倍。

向量密码学性能
向量密码学性能对现代 CPU 至关重要。它能够在不过载核心的前提下,对高吞吐量的加解密和哈希运算进行并行化处理,因此已成为区块链、安全通信和云存储等场景的必备能力。
第三代 P570 已实现 RISC-V ShangMi (SM) 密码学扩展,用于在 RISC-V 核心上加速中国国密算法(SM3、SM4)。其中包括已批准的向量化扩展(Zvksed、Zvksh),为 SM4 分组密码和 SM3 哈希函数提供了高效、标准化的加速支持。
P570 同时实现了硬件扩展 Zvkned 和 Zvknhb,分别用于加速面向 AES 的 NIST 向量密码套件,以及面向 SHA-256 和 SHA-512 的向量密码套件。
结语
第三代 P550/P570 在经过验证的第一代架构基础上实现了系统性演进,其设计重点主要围绕三个方面进行有序规划:
-
对架构进行增强,引入 128 位向量流水线,实现更加均衡的标量与向量执行能力,并加入向量点积扩展
-
升级至现代化 ISA 与 RVA23 Profile,推动 RISC-V 生态发展,使软件开发者无需顾虑兼容性问题,即可面向更广泛的装机基数进行开发
-
在功耗与性能方面实现代际级提升
这为乱序执行核心提供了一个独特的设计平衡点,在原生支持 AI 的同时,为客户带来极具竞争力的能效比。
正如前文所述,在 SiFive,产品演进是一套经过精心规划、层层递进的里程碑体系。第三代 P550/P570 正是这一理念的典型体现。
RISC-V ISA 的灵活性,加上 SiFive 的创新设计方法,使我们能够快速推动产品演进,以满足不断变化的市场需求。更精彩的内容还在后面,敬请期待。
-
探索 SiFive Performance P500 系列的能力与潜力
-
观看 Krste Asanovic 的专题视频,了解更多详情












