

# TMS320F2812 代码运行性能的研究

■ 南京三宝科技集团公司

王效东

#### 引 盲

TMS320F2812 是目前性能非常优秀的 32 位定点 DSP,集成了多种外设。对 TMS320F2812 开发通常利用 TI 公司的 CCS2 集成开发环境,使用 JTAG 接口仿真器连接 目标板,可以不占用用户资源实现全速/断点调试;仿真调 试完成后对 CMD 文件进行相关修改,并用 RTS2800\_ FL04830. LIB 替换 RTS2800N. LIB,必要时对程序中变量 与函数分配的空间做部分调整后,编译项目得到输出文件; 在 CCS2 集成开发环境中完成下载、加密等操作后,断电脱 离仿真机,成为独立运行的嵌入式系统。

然而,相当多的应用设计者常常面临程序仿真通过,但 独立运行失败的情况,表现均为程序代码运行性能比估计 的要差很多,以致来不及处理实时数据。由于代码在 Flash 中运行的时间比在 SARAM 中仿真的时间长,有的设计试 验出现在 Flash 中运行比仿真慢 4 倍以上的结果,使设计 只能停留在仿真通过的层次上。

# 分析

TI公司提供的一篇文档资料 spra958e. pdf,描述了在 内部 Flash 中运行程序的相关知识,说明当在 RAM 中仿真 速度为 150 MIPS 时,相应 Flash 中的执行速度可达 90~ 100 MIPS;同时,在此文档资料中提供了参考实例,但介绍 性文字较多,实现高性能的具体配置方式描述不够具体。 经反复阅读 TI 公司的其他相关文档资料,并编程对比实 验,笔者摸索出实现 Flash 中运行速度达到 RAM 中仿真速 度的 75%左右的方法,与 TI 指标相符合。下面详细说明 试验程序与方法。限于篇幅,只列出与试验过程密切相关 部分的配置情况。试验程序使用的空间分配如表1所列。

表 1 试验程序使用的空间分配

| 空间范围  | 段地址范围             | 段块名称        | 容           | 量     | 性  | 质  |
|-------|-------------------|-------------|-------------|-------|----|----|
| 片上存储器 | 0x008000~0x009FFF | L0L1 SARAM  | $8K \times$ | 16 位  | 安全 | 全块 |
|       | 0x3D8000~0x3F7FF7 | Flash       | 128K        | ≺16 位 | 安全 | 全块 |
|       | 0x3F8000~0x3F9FFF | Ho SARAM    | 8K×         | 16 位  | 非安 | 全块 |
| 外部存储器 | 0x080000~0x0FFFFF | XINTF Zone2 | 512K        | ×16 位 | 非安 | 全块 |

#### 试验程序如下:

# pragma DATA\_SECTION(dummy1, ".my\_sect") unsigned int dummyl;

# pragma DATA\_SECTION(dummy2, ".my\_sect") unsigned int dummy2;

# pragma CODE\_SECTION(InitFlash, "secureRamFuncs") void InitFlash() {

//下面参数配合 100 MHz 系统时钟使用

EALLOW; //许可访问被保护寄存器

FlashRegs. FPWR. bit. PWR=3;

FlashRegs, FSTATUS, bit, V3STAT=1;

FlashRegs, FSTDBYWAIT. bit. STDBYWAIT=0x01FF;

FlashRegs. FACTIVEWAIT. bit. ACTIVEWAIT=0x01FF;

FlashRegs, FBANKWAIT. bit. RANDWAIT=3;

若采用 μC/OS-II 的静态优先级调度算法,当系统中任务 优先级变化时则显得无能为力;同时通过在液压测量控制 系统中的应用表明,改进后系统的实时性得到了极大改善。

#### 结 语

本文针对  $\mu C/OS - II$  静态调度算法进行改进,在系统 中实现了截止期优先调度算法。通过在液压测量控制系 统中的应用,表明这种改进能明显提高系统的实时性;但 是改讲后的算法对系统的内存、CPU等提出了更高的要 求,存在一定的局限性。

#### 参考文献

- [1] Labrosse Jean J. MicroC/OS-II: The Real-Time Kernel. USA: CMP Books, 2002.
- [2] 汤子瀛,等. 计算机操作系统[M]. 西安: 西安电子科技大学 出版社,2000.
- [3] Labrosse Jean J. 嵌入式实时操作系统 μC/OS-II[M]. 邵贝 贝,译.第2版.北京:北京航空航天大学出版社,2003.

马德新(硕士),主要研究方向为网络与嵌入式系统。

(收稿日期:2006-09-30)

```
FlashRegs. FBANKWAIT. bit. PAGEWAIT=3;
   FlashRegs. FOPT. bit. ENPIPE=1;
   FDIS:
            //禁止访问被保护寄存器
   asm(" RPT #10 || NOP");
}
void ConfigFlash() {
   memcpy(&secureRamFuncs_runstart, &secureRamFuncs_
   loadstart, & secureRamFuncs_loadend - & secureRamFuncs_
   loadstart);
   InitFlash();
void main() {
   unsigned int loop, dummy3, dummy4;
   //如果下载到 Flash 中运行,则必须调用此函数
   ConfigFlash();
   //其他配置代码
   while(1) {
     asm(" setc xf");
     asm(" RPT #250 || NOP");
     //内部循环,无须取新指令。Ti 对应此段代码执行时在
     //XF 脚输出的脉冲
     asm(" clrc xf");
     for (loop=0;loop<10000;loop++)
       dummy1=dummy2; //外部数据交换。T2 对应此段代
                      //码执行时在 XF 脚输出的脉冲
     asm(" setc xf");
     for (loop=0; loop<10000; loop++)
       dummy1=dummy3; //内外部数据交换。T3 对应此段代
                       //码执行时在 XF 脚输出的脉冲
     asm( " clrc xf");
     for (loop=0; loop<10000; loop++)
       dummy4=dummy3; //内部数据交换。T. 对应此段代
                       //码执行时在 XF 脚输出的脉冲
    }
    下面是 CMD 文件关键内容。因 RAM 仿真与下载
Flash 所用 CMD 文件有差异,故为节省篇幅,混合写在一
起,差异部分参见说明。
 MEMORY
  PAGE 0.
    /*当 CMD 为编译下载到 Flash 时使用下面配置 */
    Flash:origin=0x3D8000, length=0x002000
    /* 当 CMD 用于 RAM 仿真时使用下面配置 */
    PRAMH0: origin = 0x3f8000, length = 0x001c00
```

```
PAGE 1:
   RAML0L1:origin=0x008000,length=0x002000
            origin=0x080000, length=0x080000
SECTIONS
   / * 当 CMD 用于 RAM 仿真时使用下面配置 * /
             /* PRAMH0, PAGE=0*/
   . text
   / * 当 CMD 为编译下载到 Flash 时使用下面配置 * /
             / * Flash, PAGE = 0 * /
   , text
   . my_sect
            /*ZONE2,PAGE=1*/
   /*以下5行,只用于编译、下载 Flash 项目,RAM 仿真不使用*/
    secureRamFuncs:LOAD=Flash,PAGE=0
   RUN = RAML0L1, PAGE = 1
             /*如果用下面一行,则加密后速度减慢*/
   /*RUN=RAMH0,PAGE=1*/
    RUN_START(_secureRamFuncs_runstart),
   LOAD_START(_secureRamFuncs_loadstart),
   LOAD_END(_secureRamFuncs_loadend)
```

试验程序运行时,用示波器在 TMS320F2812 的 XF 输出脚可以测量到重复脉冲(如图 1 所示),表 2 为对应的 测量结果。



图1 重复脉冲

表 2 測量结果

| 測试条件                   | $T_1/\mu s$ | $T_z/ms$ | $T_3/\text{ms}$ | $T_4/\mathrm{ms}$ |
|------------------------|-------------|----------|-----------------|-------------------|
| SARAM 仿真,变量在 H0 或 L0L1 | 2.5         | 2. 1     | 1.8             | 1.4               |
| Flash 运行,变量在 H0,未加密    | 2.5         | 2.8      | 2.4             | 2.0               |
| Flash 运行,变量在 H0,加密     | 2.5         | 9.6      | 9.6             | 8.0               |
| Flash 运行,变量在 LOL1,加密   | 2, 5        | 2.8      | 2.4             | 2.0               |

函数 InitFlash()设置了等待参数。在 100 MHz 的系统时钟条件下,笔者的实例能保证正常执行的最佳参数;而其他设置会产生运行速度慢,或过快但运行不稳定的结果。观察表 2 的测量结果,可以发现各方式下  $T_1$  时间不变,原因为指令"asm(" RPT # 248 || NOP")"取指令只

# EXPERIENCE EXCHANGE

经验交流



执行一次,然后在 DSP 中内部循环执行 250 次,而只有取指令才涉及等待参数问题,所以在试验的 4 种条件下  $T_1$  基本相同(毕竟还是存在取指令过程,每种条件下  $T_1$  并非完全一致,有微小差别)。因 Flash 本身访问速度比 SARAM 要慢,指令需要插入等待周期。

表 2 说明了下载到 Flash 中运行时的速度与在 SARAM 中仿真时相比,有所下降。 $T_2/T_3/T_4$  虽然同为数据传送花费时间,但因分布空间不同,对应汇编指令数 和指令类型相应有增减,故表现出不同的执行时间,其中数据在外部 RAM 中传输比在内部 SARAM 中传输要慢。

表2还显示出下载到Flash中运行,如果同时对芯片加密,则应当特别注意变量分配的空间位置。加密后Flash处于安全模块中,如果变量分配到H0,那么由于H0是非安全块,DSP工作时可以在两种模块中动态切换,不需要开发者附加代码。描述参见TI文档资料中的CSM章节,但并未说明需要额外增加时间开销。L0L1是安全块,如果变量分配到L0L1或是没有加密,则因不存在安全与非安全模块的切换时间开销,速度比较快。当采用保护芯片知识产权而需要加密Flash时必须注意分配变量空间,把对运行速度敏感的参数分配到L0L1中,否则会发现程序执行速度降低到仿真时的1/4。由于内部SARAM空间有限,应用系统往往需要外扩RAM,数据交换将比在内部SARAM执行时有所增多。

# 2 结 论

通过前面的试验,可以得到几个在 TMS320F2812 应

用开发中,运行于 Flash 中的代码如何提高性能的指导原则:

- ① 根据系统时钟选择合适的等待参数;
- ② 数据分配空间从指令类型与数量上影响程序执行 效率;
- ③ Flash 加密后,对执行速度有快速性要求的应用系统,应当在 CMD 文件中指定运行空间在 SARAM 的 LOL1 段,并注意变量分配的段空间。

设计系统如果满足上面几个原则,那么程序执行效率 就可达到 SARAM 仿真时的 70%。

### 参考文献

- [1] TMS320F2812 Digital Signal Processors Data Manual[OL]. http://focus.ti.com/lit/ds/symlink/tms320f2812.pdf.
- [2] TMS320F28x System Control and Interrupts Reference Guide [OL]. http://focus. ti, com/lit/ug/spru078d/spru078d, pdf,
- [3] TMS320C28x DSP CPU and Instruction Set Reference Guide [OL], http://focus.ti.com/lit/ug/spru430d/spru430d.pdf.
- [4] Running an Application from Internal Flash Memory on the TMS320F28xx DSP [OL]. http://focus. ti. com/lit/an/spra958f/spra958f.pdf.
- [5] Texas Instruments Incorporated. TMS320C28X 系列 DSP 的 CPU 与外设(下)[M]. 北京;清华大学出版社,2005.

王兹东(工程师),主要研究方向为 UHF 段 RFID 读写器 MCU/DSP 等固件程序开发。

(收稿日期:2006-10-09)

# ARM 发布基于 TSMC 90 nm I 艺的DDR1 和 DDR2 存储器接口 IP

ARM 公司发布了其 Artisan 物理 IP 系列中的 ARM Velocity DDR1 和 DDR2 存储器接口,支持 TSMC 的 90 nm 通用工艺。ARM Velocity DDR1/2 存储器接口是第一个通过 TSMC IP 质量安全测试的、可即量产的 90 nm IP。

ARM 90 nmVelocity DDR1/2 存储器接口解决方案包括多组可编程 ODT 和输出驱动阻抗控制。所有的端头在使用 ARM 先进的动态校准器电路的情况下能够获得很高的阻抗精度。这些特性提高了整体信号的完整性,并且加快高速系统设计的开发进度。90 nm Velocity DDR1/2 存储器接口提供最适宜的解决方案,为需要用到 SDRAM 的众多应用(如主流台式电脑、网络设施和服务器)提供可调整的功耗和性能。这些可用于 DDR1 和 DDR2 的双倍数据速度解决方案,数据运行速度最高可达 800 Mbps,并实现了 SDRAM 组建和存储器控制器之间的所有接口。