Подписка на новости

Опрос

Нужны ли комментарии к статьям? Комментировали бы вы?

Реклама

 

2000 №8

DSP процессор - ЦСП: Цель — Создавать Потрясающее

Грибачев Сергей


Аббревиатура DSP (Digital Signal Processor), или по-русски ЦСП (цифровой сигнальный процессор), прочно утверждается в языке российских разработчиков самых разнообразных электронных устройств. С объявлением весной 2000 года новых семейств ЦСП (TMS320C28x, TMS320C55x и TMS320C64x) компания Texas Instruments ввела в обиход новую расшифровку этого сокращения: DSP — Do Something Phenomenal, или, в переводе на русский, ЦСП — «Цель — создавать потрясающее». Несмотря на шутливый оттенок такой расшифровки, заявленные характеристики трех упомянутых семейств заставляют всерьез рассматривать новые ЦСП как инструмент для создания феноменальных конечных изделий.

Рассмотрим свойства семейства TMS320C64x. Сразу следует отметить, что оно создавалось в рамках платформы TMS320C6000, ориентированной на достижение максимального быстродействия при решении задач ЦОС (цифровой обработки сигналов). Принадлежность к платформе 'С6000 означает полную программную совместимость семейства 'C64x с серийно выпускаемыми семействами 'C62x и 'C67x, что дает возможность вести отладку программ для нового семейства уже сегодня, пользуясь существующими отладочными средствами. Таким образом, огромный объем программных наработок может быть перенесен на новые ЦСП с минимальными временными затратами.

DSP процессор - ЦСП

В ЦСП платформы 'С6000 достижение высокого быстродействия достигается за счет использования архитектуры VLIW (Very Large Instruction Word) — так называемой «архитектуры с широким командным словом». На исполнение одновременно выдается восемь 32-разрядных команд, каждая из которых выполняется одним из восьми независимых функциональных устройств, сгруппированных в 2 блока. Процесс выполнения команд конвейеризован и распадается на этапы выборки, распаковки, декодирования и исполнения. Запатентованная TI архитектура ядра ЦПУ приведена на рис. 1 и носит название VelociTI.1TM. В состав каждого блока исполнения команд входят регистровый файл (16 32-разрядных регистров) и 4 исполнительных устройства: умножитель 16х16 (устройство М), 40-разрядное АЛУ (устройство L), 32-разрядное АЛУ с 40-разрядным сдвигателем (устройство S) и 32-разрядный адресный сумматор (устройство D). Через систему внутренних шин ЦПУ взаимодействует со встроенной памятью программ/данных и периферийными устройствами. 4-канальный контроллер прямого доступа к памяти позволяет разгрузить ЦПУ от операций ввода/вывода. Подробно данная архитектура, а также конкретные ЦСП рассмотрены в ряде статей и фирменных материалах TI [1–4]. Здесь же хотелось бы отметить, что в рамках семейства TMS320C62x была достигнута пиковая производительность 2400 MIPS (млн инструкций в секунду) при сохранении энергопотребления на самом низком для таких ЦСП уровне (1,3 Вт для TMS320C6203), что дает возможность эффективно использовать их в разнообразных встраиваемых системах. Семейство TMS320C67x характеризуется, с одной стороны, производительностью в 1 GFLOPS (один млрд операций с плавающей запятой в секунду) для ЦСП TMS320C6701, а с другой стороны — самым дешевым из быстродействующих ЦСП TMS320C6712 производительностью 600 MFLOPS при стоимости менее $10.

Семейство TMS320C64x будет превосходить существующие семейства 'С62x и 'C67x по всем параметрам. Усредненное быстродействие ЦПУ будет почти в 10 раз выше, чем у TMS320C6201. Для достижения таких характеристик была использована VLIW-архитектура VelociTI.2TM (рис. 2). Был удвоен объем регистровых файлов в каждом из блоков исполнения, а сами исполнительные устройства расширены и построены по схеме с блочным расщеплением. Например, если в 'C62x устройство М могло выполнять в одном такте умножение 16х16 разрядов, то в 'C64x оно может умножать 32х32 разряда и получать 64-разрядный результат, либо выполнять два умножения 16х16 и получать два 32-разрядных результата, либо — 4 умножения 8х8 с получением четырех 16-разрядых результатов.

Цифровая обработка сигнала DSP процессор

Дополнительное повышение производительности достигается включением в систему специализированных команд цифровой обработки, таких как умножение полей Галуа GMPY4 (используется для поддержки алгоритма Рида–Соломона), вычисление абсолютной величины четырех 8-разрядных разностей SUBABS4 (используется в алгоритмах оценки движения), команды SSHVL и SSHVR сдвига на переменное число разрядов с распространением знака (используются при реализации вокодерных алгоритмов) и многие другие. Более плотная упаковка программного кода позволяет экономить до 25 % объема ОЗУ.

Важным вкладом в повышение быстродействия нового семейства является использование суб-0,1-микронной технологии при производстве кристаллов. Кремний будет выпускаться с технологическими нормами 0,09 мкм, что позволит при тактовой частоте 1,1 ГГц иметь производительность 8800 MIPS, либо 4400 16-разрядных MMACs (млн умножений с накоплением в секунду), либо 8800 8-разрядных MMACs. Интересно, что при такой частоте удается сохранить невысокую мощность рассеивания, в пределах 4 Вт, что выгодно отличает ЦСП семейства 'C64x от быстродействующих процессоров других производителей.

В каких же областях планируется использовать выдающиеся характеристики нового семейства? Прежде всего, это широкополосные системы связи третьего поколения. По оценкам специалистов TI один ЦСП 'C64x в состоянии поддерживать до 64 каналов передачи голоса и данных, AMR-вокодеры, видеообработку в стандарте MPEG4 плюс реализовать ряд новых стандартов обработки, еще находящихся в процессе разработки. Как минимум 8 из 10 ведущих мировых производителей базовых станций третьего поколения уже выбрали семейство 'C64x в качестве базы для будущих разработок. Другой областью применения являются проводные цифровые системы передачи данных. Увеличенное в 8 раз по сравнению с 'C62x быстродействие новых ЦСП дает возможность реализовать на одном кристалле до 32 полноскоростных DSL-модемов либо несколько сотен голосовых каналов. В области обработки изображений пятикратный выигрыш производительности при построении систем визуализации в медицине и десятикратный — при построении систем машинного зрения позволяют создавать устройства с действительно потрясающими свойствами. Причем, как уже отмечалось, ввиду полной программной совместимости возможен плавный переход от серийно выпускаемых сегодня ЦСП семейств TMS320C62x и TMS320C67x к новому семейству TMS320C64x (рис. 3).

ЦСП семейств TMS320C62x и TMS320C67x

Цели создания феноменальных изделий служит также технология eXpressDSPTM, разработанная специалистами TI технология разработки, отладки и оптимизации программного продукта, призванная облегчить интеграцию имеющихся программных наработок, повысить качество прикладных программ и существенно сократить время выхода на рынок. В рамках данной технологии реализованы интегрированная программная среда Code Composer StudioTM, ядро операционной системы реального времени DSP-BIOS, стандарт написания программных модулей для TMS320TM и многое другое. Но это уже тема для отдельного разговора.

Литература