设计一个自己专用处理器该怎么完成?

做芯片设计的各位,在某个时刻,你也许会产生一个想法,“为什么不自己设计一个处理器呢?”或许是手头的处理器并不好用;或许是想用的处理器贵的离谱;或许是你希望做出差异化的产品;又或者仅仅因为它是个诱人的挑战,你想尝试一下…既然如此,我很高兴能和你讨论一下怎么完成这个任务。

交付物

我们先从结果说起,也就是这项任务的最终交付物。这里不妨参考ARM处理器核的deliverables。当然,如果只是一个自己用的专用处理器,不一定要有这么完整的交付物。

硬件:主要是处理器相关的RTL代码,验证环境,EDA工具的脚本,文档等等。

工具:主要包括编译工具(compiler),调试工具(debugger),仿真工具(simulator)和性能分析工具(profiler)。下图是ARM的编译工具的例子,主要包括armclang(C编译器),armasm(汇编器),armlink(链接器)和fromelf(image工具)。

 

仿真工具一般至少包括一个指令仿真器 instruction set simulator (ISS),做的好的有cycle-accurate ISS。

模型:此外,现在一般的处理器IP还会提供一些处理器的模型来支持系统级设计,比如用于虚拟平台(virtual platform的处理器model。虚拟平台可以在没有硬件的情况下支持软件开发,它可以模拟一个完整的芯片或者一个硬件板卡,比如ARM的Fixed Virtual Platform (FVP)。而专用的处理器模型(比如ARM的Fast Model)是虚拟平台的重要组成部分,和总线模型以及其它IP模型一起模拟系统的功能。

在上述交付物中,红色为必不可少的内容。即使你做的专用处理器功能简单,没有这几部分它也几乎是无法正常使用的。当然,你可以说,我不需要ISS做指令验证,不需要debugger做调试,不需要C编译器而只用汇编,我也只能“呵呵”了。

看到这一大堆工作,如果你没有胆怯,而是觉得很有意思。那么我也很愿意给你点帮助,看看是不是可以把你的想法变成现实。其实方法也很简单 — 自己做不了就找“别人”帮忙呗。

具体来说,根据你的预算情况,可以分为“穷”和“富”两种玩法。我先说说有钱的玩法吧。

富玩法

其实,不止你一个人想做专用处理器,很多大公司也有这样的需求。所以,就有人为这种需求专门提供了解决方案,比如Synopsys的ASIP-designer工具和Cadence的Xtensa可扩展处理器(参见Cadence(Tensilica)的可定制处理器),都是为了满足定制处理器的需求而设计的。

其中Cadence的可扩展处理器是在一个基础处理器上给你提供了配置(configure)和扩展(extension)的方法和工具。它提供的功能可以通过下图感受一下。

这套工具的输入包括三个部分:1)一个处理器模板(Processor Template);2)用户配置(Configuratoin Options);3)定制的指令(Custom Instructions)。最简单的情况,你只要选一个处理器模板扔给工具就可以了。如果这个不能满足要求,那么你可能要做一些配置。这个也很简单,基本是菜单选择。最有技术含量的是第三种情况,你要设计一些定制的指令。有了这些输入,剩下的事情就都交给工具了。我们在第一节说的那些交付物,都可以自动生成。

那么我们怎么知道要不要自己定制指令呢?工具也提供了方法。首先,输入你的算法程序输入,经过编译,进行仿真和profiling,得到性能评估的结果。然后判断是否满足需求。答案是NO的话,就尝试更新Configuration;如果还是不行,再尝试定制指令的方法,直到满意为止。由于工具帮助你做了大部分工作,这个迭代的过程(也可以看作是Design Space Exploration)会非常快。

为了实现定制指令(对原有指令集进行扩展),Cadence(Tensilica)设计了一种专用的描述语言:Tensilica Instruction Extension (TIE) language。由于Xtensa处理器有一个基本的架构模板,使用TIE语言对它进行扩展是有一定的限制,不是说你想做的指令和架构改动都能够实现。

Synopsys提供的工具直接就叫ASIP designer,ASIP(Application-Specific Processor)专用处理器设计工具。和Tensilica的可扩展处理器不同,ASIP designer支持从零开始设计和实现一个专用处理器。相应的,它比Tensilica可扩展处理器有更高的灵活性。你可以非常自由的设计指令集和微结构,覆盖从Extensible processor,到Application-specific uP/DSP,到Programmable datapath这样一个更大的架构空间,如下图所示。这里也可以看出,这个工具的目标并不是设计通用处理器。

 

图是这个工具完整的方法学。

 

它的输入就是两个,算法(C/C++代码)和处理器模型(Processor Model),输出则是一个处理器相关的所有设计和工具链。从输入到输出的过程同样是自动化完成的。当然,这个过程并不像看起来那么简单,处理器建模的门槛不低。而且,工具赋予你的灵活性越高,掌握这种工具的门槛也越高。ASIP designer的处理器建模需要使用一种专门的语言,即nML,对处理器的指令集和架构进行高层次建模;此外还需要很多和编译器相关的设计,(具体的信息大家可以访问synopsys网站)。所以,即使你能买得起,要玩好这套工具,还得具备两个条件:第一,是你必须熟悉处理器架构和编译方面知识;第二,是要学习这套建模语言和工具。

总的来说,如果你有专用处理器设计的需求,足够的资金和学习的耐心,可以考虑引入这类辅助设计工具。在经历过一定的学习周期后,你不仅可以完成一个设计,还能获得快速、高效设计处理器的能力。

穷玩法

看了上面的介绍,你是不是也对“自动”设计专用处理器的方法很眼馋呢?可惜,你可能没有足够的资金来购买这样的工具,或者是你的目标收益还不值得做出这样的投资。这种情况下,我建议你从开源的处理器(或者指令集)开始做你自己的专用处理器。其实这也算是废话吧。所以还是得给个具体的例子,假设你想在RSIC-V的基础上做定制处理器。RSIC-V是现在一个相对成熟的开源处理器指令,已经有很多相关实现和非常活跃的社区。相信大家都听说过,就不科普了。这里得说明一下,我并没有对RISC-V进行过深入的研究和尝试,以下的说法基本上是纸上谈兵,不对的地方请大家批评指正。

首先,你要好好学习一下RISC-V指令集手册中的“Chapter 10 Extending RISC-V”,这里明确介绍了给RISC-V指令集增加指令的规则。

第二,在现有的RISC-V的硬件实现基础上,增加新指令对应的硬件。可能需要增加专用的寄存器,运算单元,pipeline寄存器,控制信号等等。或者,你可以按照新的指令集(假设叫“RISC-V++ ISA”)自己做完整的硬件实现。其实我觉得第二种方法还更靠谱一点。很多时候,修改别人的东西,要比自己做困难的多。

第三,在RISC-V原有的工具链(比如GNU或者LLVM的编译器)基础上做出修改,支持新的指令。相对来说,这项工作是有比较完善的规则的,只要按照编译工具的规则就可以把新增的指令加进去。当然,如果你增加的指令比较特殊,比如是向量操作,那么工具链的设计会困难很多。这种情况下的一个选择是在高级程序语言的编译器中不增加对新指令的支持,这些新的指令以汇编或者intrinsic的方法实现。

最后,这套方法是不是也能支持在第二节中所说的快速design space exploration呢?基本的思路也是差不多的。你可以先用基本指令集来仿真你的算法;根据profiling的结果(比如性能指标,指令效率,code size等)考虑对指令集进行的修改;然后更新相应的硬件实现和工具链,再编译和仿真你的算法,并不断迭代。现在你实现这个过程没有自动化工具的帮忙,可能需要更长的时间才能完成,特别是需要对功耗面积等implementation结果进行优化的情况。当然,如果现在RSIC-V的生态中已经有了辅助设计工具,那么可能情况会轻松一些。

这种方法看起来行的通,不过中间的坑非常多,要求你对基础处理器(比如RISC-V)非常熟悉。适合那些已经完整的做过RISC-V实现的玩家尝试。否则,也许有的坑你根本过不去。

最后,我写这篇文章并不是想鼓励大家都自己做专用处理器,而是希望大家清楚做这件事情要付出的代价。

 

作者:西部车床,如若转载,请注明出处:https://www.lathe.cc/2022/05/7591.html