Hinweis zum Urheberrecht
Dissertation zugänglich unter
URN: urn:nbn:de:bvb:29-opus-31033
URL: http://www.opus.ub.uni-erlangen.de/opus/volltexte/2012/3103/
Power-Efficient Tightly-Coupled Processor Arrays for Digital Signal Processing
Energieeffiziente eng gekoppelte Prozessorfelder für digitale Signalverarbeitung
Kissler, Dmitrij





| SWD-Schlagwörter: |
| Energieeffizienz , Eingebettetes System , Exploration , Chip-Multiprozessor , Rekonfiguration , Computerarchitektur , Hardwareentwurf |
| Freie Schlagwörter (Deutsch): |
| Leistungseffizientes Design , Common Power Format (CPF) , Unified Power Format (UPF) , Modellierung der Leistungsaufnahme , Massiv-parallele Systeme |
| Freie Schlagwörter (Englisch): |
| Low-Power Design , Common Power Format (CPF) , Unified Power Format (UPF) , Power Modeling , Massively Parallel Systems |
| CCS - Klassifikation: |
| B.7.1 Type |
| Fakultät: |
| Technische Fakultät |
| DDC-Sachgruppe: |
| Informatik |
| Dokumentart: |
| Dissertation |
| Hauptberichter: |
| Teich, Jürgen (Prof. Dr.-Ing.) |
| Sprache: |
| Englisch |
| Tag der mündlichen Prüfung: |
| 15.12.2011 |
| Erstellungsjahr: |
| 2011 |
| Publikationsdatum: |
| 10.02.2012 |
| Kurzfassung in Englisch: |
| In this thesis, we focus on highly area- and power-efficient, massively parallel, tightly- coupled embedded hardware architectures called Weakly Programmable Processor Arrays (WPPA) which are to be used as hardware accelerators in mobile embedded systems for sophisticated digital signal and image processing. Our research fully proved the need and the benefits of deploying such efficient accelerators in modern high-performance embedded systems: The prototype implementations of a WPPA in 90 nm CMOS ASIC technology with 4 and 24 processing elements revealed power efficiency values ranging from 98 MOPS/mW to 124 MOPS/mW and 0.064 mW/MHz to 0.66 mW/MHz.
The corresponding chip area lies between 0.2 mm2 (4 PEs) and 2.2 mm2 (24 PEs). Compared to the current general-purpose multicore architectures, which are manufactured in much smaller process geometries, WPPAs have thus a 100 times smaller area footprint and up to 1000 times better power efficiency.
The main contributions of this thesis lie in the following fields: Architectural research, power modeling, power optimization, as well as automatic design space exploration.
Architectural Research A novel, highly parameterizable coarse-grained reconfigurable architecture called
Weakly Programmable Processor Array was designed. It consists of several weakly programmable processing
elements with a VLIW (very long instruction word) architecture which are connected with the help of dynamically
reconfigurable interconnect modules. One of the distinguishing properties of a WPPA is that it is an architectural
template rather than a fixed design, like many other well-known coarse- grained reconfigurable architectures. The high
degree of parameterization enables a flexible adaptation of hardware resources to the prospective set of applications as
well as an automatic design space exploration.
Power Modeling With the help of a table-based, probabilistic macro-modeling technique with non-uniform parameter sampling,
implemented by means of a relational database we show that the achievable power estimation speeds for large WPPA arrays
consisting of several hundreds of processing elements can be reduced to the minutes range within 10% estimation error compared
to a state-of-the-art commercial gate-level post-layout power estimator.
Power Optimization First, the important aspect of power-efficient dynamic reconfiguration control techniques in coarse-grained
reconfigurable architectures was addressed: Proper clock domain partitioning with custom clock gating combined with automatic
clock gating resulted in a 35% total power reduction. This is more than a threefold as compared to the single clock gating
techniques applied separately. The corresponding case study application with 0.064 mW/MHz and 124 MOPS/mW power efficiency
outperforms the major coarse-grained and general purpose embedded processor architectures by a factor of 1.7 to 28.
The active and standby leakage power consumption could also be significantly reduced due to state-of-the-art,
Common Power Format based design flow and a novel, highly scalable power control network for designs
with hundreds of power domains.
Automatic Design Space Exploration An exploration framework for WPPA based on state-of-the-art multi-objective evolutionary
algorithms was implemented which allows us to perform a highly accurate and expeditious automatic exploration and evaluation
of any possible WPPA instance in terms of area, performance and power on a high level of abstraction.
The presented framework constitutes the means to automatically determine the absolute upper and lower limits of the objectives
for a given parameter range which would be impossible to achieve otherwise. Substantial acceleration of the automatic
exploration procedure is achieved due to deployment of a novel, relational database-based macro-modeling methodology
and modern multi-objective evolutionary algorithms. Finally, the automatic exploration of combined deployment of several
different algorithms on a single WPPA instance programmed by means of run-time reconfiguration was investigated. |
| Kurzfassung in Deutsch: |
| Der Schwerpunkt der vorliegenden Dissertation liegt auf der
neuen Architekturklasse der energie- und flächeneffizienten,
schwachprogrammierbaren, eng gekoppelten Prozessorfelder (eng.
Weakly Programmable Processor Arrays, WPPAs). Sie verbinden die
Vorteile anwendungsspezifischer integrierter Schaltungen
(Chipflächenbedarf, Energieverbrauch und Rechenleistung) mit
der Flexibilität gängiger Multicore-SoCs, siehe Abb. 8.1. Diese
Flexibilität wird durch die Programmierbarkeit der einzelnen
Prozessorelemente und der Verbindungstopologie des
Prozessorfeldes erreicht. Die Programmierbarkeit ist
anwendungsspezifisch und damit eingeschränkt.
Die Ergebnisse dieser Dissertation zeigen,
dass es für die oben erwähnten Anwendungsfelder mit Hilfe der
vorgeschlagenen Methoden möglich ist, Systeme zu entwerfen, die
1/10 bis 1/100 der Chipfläche bei 100- bis 300-fachen
Steigerung der Leistungseffizienz besitzen, bei einer
Rechenleistung vergleichbar mit der von herkömmlichenMulticore-SoCs.
Die wesentlichen Beiträge der vorliegenden Arbeit liegen in
den folgenden vier Forschungsgebieten: (1) Erforschung von
Architekturen, (2) Effiziente Modellierung des Leistungsverbrauchs auf einer hohen Abstraktionsebene, (3) Optimierung des Energie- und Leistungsverbrauchs, sowie (4)Effiziente Parameterraum-Exploration.
Erforschung von Architekturen Die WPPA-Architekturen werden aus
mehreren schwachprogrammierbaren Prozessorelementen (WPPE)gebildet, die zu Prozessorfeldern verbunden sind. Jedes einzelne Prozessorelement eines WPPAs besitzt eine VLIW-Architektur (Very Long Instruction Word). Sie werden als
schwachprogrammierbar bezeichnet, weil die Größe des Instruktionsspeichers beschränkt ist und der Kontrollaufwand für Algorithmen einer bestimmten Anwendungsklasse so gering wie möglich gehalten wird. Es werden zum Beispiel keine Interrupts und Exceptions unterstützt. Der
Instruktionsspeicher enthält jeweils ein VLIW Programm. Jedes
WPPE enthält Parameter, wie zum Beispiel die Anzahl und Typ
der funktionalen Einheiten (Addierer/Subtrahierer,
Multiplizierer, Schiebeeinheiten, Logikeinheiten) und kann zur
Synthesezeit parametrisiert werden. Das VHDL-Template kann
durch spezielle funktionale Einheiten, beispielsweise MAC
(Multiply-Accumulate) oder Barrel-Schifter, erweitert werden.
Die Kommunikation zwischen den einzelnen Prozessorelementen
spielt bei den parallelen Hardwarearchitekturen eine sehr wichtige Rolle. Flexible Verbindungsstrukturen können mit Hilfe des Konzeptes eines
Interconnect Wrapper Moduls realisiert werden, das zu jeweils
einem WPPE gehört. Effiziente Modellierung des Leistungsverbrauchs Um eine
äußerst schnelle Abschätzung des Leistungs- und
Flächenverbrauchs auf Architekturebene zu ermöglichen, wird
eine probabilistische Makromodellierungsmethodik vorgeschlagen,
die auf einer neuartigen Implementierung mit Hilfe einer
relationalen Datenbank, sowie einer nicht-uniformen
Parameter-Abtastung basiert. Damit können große
Prozessorfelder mit Hunderten von Prozessorelementen innerhalb
einiger Minuten bezüglich ihres Energie- und Leistungsverbrauchs charakterisiert werden. Der Abschätzungsfehler liegt dabei innerhalb von 10% verglichen mit modernen kommerziellen Analysewerkzeugen, die auf einer
Gatternetzliste mit Plazierungs- und Verdrahtungsinformation
arbeiten. Optimierung des Energie- und Leistungsverbrauchs Sowohl der
dynamische, wie auch der statische Leistungsverbrauch werden
mit Hilfe moderner Methoden, sowie architekturspezifischer
Eigenschaften massiv reduziert. Die Anwendung einer hybriden
Clock-Gating Technik führt zu einem Rückgang der dynamischen
Leistungsaufnahme um bis zu 35%. Verglichen mit den herkömmlichen automatischen Clock-Gating Techniken ist es eine Steigerung um den Faktor drei. Die Beispiel-Implementierungen von WPPAs mit unterschiedlichen Größen von 2x2 und 3x8 in
einer kommerziellen 90 nm CMOS Standardzellen-Technologie ergaben Leistungseffizienz-Werte von 0.064 mW/MHz und 124 MOPS/mW. Verglichen mit modernen grobgranularen und eingebetteten Mikroprozessor-Architekturen entspricht dies einer Steigerung der Leistungseffizienz um den Faktor 1.7 bis
28. Die Reduzierung der statischen Leistungsaufnahme während des Betriebs, wie auch der Standby-Zeit wird mit Hilfe der Power-Gating Technik und eines automatisierten Entwurfsflusses basierend auf dem Common Power Format erreicht. Um die Skalierbarkeit dieser Methode für künftige große Prozessorfelder mit Tausenden von Prozessorelementen sicherzustellen, wird ein neuartiges, effizientes Verbindungsnetzwerk mit asynchroner Steuerung vorgestellt. Effiziente Automatische Parameterraum-Exploration Ein bemerkenswertes Ergebnis dieser Arbeit ist ein innovatives Explorations-Framework, das mit Hilfe moderner
multikriterieller evolutionärer Algorithmen eine genaue und schnelle automatische Parameterraum-Exploration bezüglich des Flächen- und Leistungs-Verbrauchs, sowie des Durchsatzes für beliebige WPPA-Instanzen ermöglicht. Dieses Framework stellt ein Mittel dar, die jeweiligen unteren und oberen Schranken der Zielfunktionen für einen gegebenen Parameterbereich
automatisch zu bestimmen. Dies kann mit herkömmlichen Methodiken nicht erreicht werden. Anschließend wird eine Exploration von WPPA-Architekturen für mehrere
unterschiedliche Algorithmen untersucht, die auf dem gleichen Prozessorfeld mit Hilfe von Rekonfiguration ausgeführt werden
sollen. Es werden Methoden vorgestellt, die während der Exploration zu einer ausgeglichenen Hardware-Architektur führen, die für eine gegebene Algorithmen- Menge einen vernünftigen Kompromiss bezüglich der Zielgrößen darstellt. |