AMD Bulldozer

(Doorverwezen vanaf AMD Piledriver)

Bulldozer is de codenaam voor een microprocessor-microarchitectuur ontwikkeld door AMD voor desktop- en servermarkten. Bulldozer werd geïntroduceerd op 12 oktober 2011 als de opvolger van de K10-microarchitectuur.

Bulldozer is een nieuw ontwerp en niet een doorontwikkeling van een eerdere processor.[1] De architectuur is gericht op producten met een TDP van 10 to 125 watt. AMD claimt sterk verbeterde prestaties per watt in high-performance computing-applicaties.

De Bulldozer-processors ondersteunen de meeste instructiesets die Intelprocessors hadden bij de introductie (onder andere SSE4.1, SSE4.2, AES, CLMUL en AVX), net als nieuwe instructiesets van AMD: ABM, XOP, FMA4 en F16C.[2]

Overzicht

bewerken

Op Bulldozer gebaseerde cpu's worden gefabriceerd volgens het 32 nm Silicon on insulator (SOI)-proces van GlobalFoundries en hergebruiken de aanpak van DEC voor multitaskingprestaties omdat AMD hoopte hiermee "overbodige" elementen van het ontwerp te omzeilen, waardoor er beter gebruik van de hardware kon gemaakt worden, met een lager stroomverbruik.

De eerste Bulldozer-gebaseerde chips arriveerden in oktober 2011 voor zowel servers als desktops. Voor de servermarkt waren er 16-core (2 chips) Opteron-processors met de codenaam Interlagos (voor socket G34) en 4, 6 of 8 core (1 chip) Opterons met codenaam Valencia (Socket C32.) Voor desktops was er het Zambezi-ontwerp voor de FX-serie op socket AM3+.

Bulldozer is het eerste grote herontwerp van AMD's processorarchitectuur sinds 2003, toen het zijn K8-processors lanceerde. Bulldozer heeft twee 128-bit FPUs die kunnen gecombineerd worden tot een 256-bit FPU. Dit ontwerp gaat gepaard met twee integer clusters, elk met 4 pipelines. Ook werd gedeeld L2 cache geïntroduceerd met de nieuwe architectuur. Dat alles is het ontwerp dat AMD een module noemt. Een 16-core-processor bestaat dus uit 8 van deze modules,[3] maar het OS herkent elke module als twee cores.

De modulaire architectuur bestaat uit een multithreaded en gedeelde L2-chache en FlexFPU, dat gelijktijdige multithreading ondersteunt. Elke fysieke core, twee per module, is single threaded, in contrast met Intels HyperThreading, waarbij twee virtuele threads dezelfde core delen.

Architectuur

bewerken

Bulldozer-core

bewerken
  • AMD herintroduceerde de "Clustered Integer Core" microarchitectuur ontwikkeld door DEC in 1996 voor de Alpha 21264 microprocessor. Deze technologie wordt informeel ook wel CMT (Clustered Multi-Thread) genoemd, maar wordt door AMD een "module" genoemd. Een "module" is gelijk aan een dual-core-processor qua integer kracht en een single-core-processor qua zwevendekommagetal-rekenkracht: voor elke FPU zijn er twee integer clusters. De FPUs zijn gelijkaardig aan single-core-processors die twee threads tegelijkertijd aankunnen met de kracht van één core.
  • Elke "module" heeft de volgende resources:[4][5]
    • 2 MB aan L2 cache
    • 16 KB L1 data-cache per core en 64 KB instructie-cache per "module"[6][7][8]
    • Twee integer clusters
    • Twee symmetrische 128-bit FPUs
  • Alle "modules" delen dezelfde L3 cache en geïntegreerde geheugencontroller
  • Een "module" heeft 213 miljoen transistors op 30,9 mm²

Instructiesets

bewerken
  • Ondersteuning voor Intels Advanced Vector Extensions (AVX) instructieset, die 256-bit zwevendekommaoperaties gebruikt, en SSE4.1, SSE4.2, AES, CLMUL, net als toekomstige 128-bit instructiesets voorgesteld door AMD (XOP, FMA4 en F16C), die dezelfde functionaliteit hebben als SSE5 maar met compatibiliteit met het AVX-programmeerschema.

Procestechnologie en kloksnelheid

bewerken
  • 11-metaal laag 32 nm SOI-proces met High-K Metal Gate-techniek.
  • Turbo Core 2 verhoogt de kloksnelheid met maximaal 500 MHz als alle threads actief zijn en tot 1 GHz als de helft van de threads actief is, binnen de TDP limiet.[9]
  • De chips werken van 0,775 to 1,425 volt en halen daarbij kloksnelheden van 3,6 GHz of meer.
  • De minimale TDP is 25 watt, de maximale is 140 watt

Cache en geheugeninterface

bewerken
  • Tot 8 MB L3 cache, gedeeld onder alle cores die op dezelfde chip, onderverdeeld in 4 subcaches van 2 MB elk, welke werkt op 2,2 GHz op 1,125 volt[10]
  • DDR3 geheugen ondersteuning to DDR3-1866[11]
  • Dual channel DDR3 controller voor desktopprocessors en Opteron 42xx-serie serverprocessors[12], quad channel controller voor Opteron 62xx-serie serverprocessors[13]
  • Ondersteuning voor twee DIMMs van DDR3-1600 geheugen per kanaal. Twee DDR3-1866 DIMMs zullen onderklokt worden tot 1600 MHz

I/O en socket

bewerken
  • HyperTransport versie 3.1 (3,2 GHz, 6,4 GT/s, 25,6 GB/s en 16-bit link)
  • Socket AM3+
    • 942-pin, enkel DDR3 ondersteuning
    • Terugwaartse compatibiliteit met socket AM3 (indien de moederbord-fabrikant dit kiest[14][15]), maar dit is officieel niet ondersteund door AMD. AM3+ moederborden zijn wel altijd compatibel met AM3 processors.
  • Socket G34 en C32 voor de servermarkt

Processors

bewerken

De eerste zending van op Bulldozer-gebaseerde Opteron-processors werd aangekondigd op 7 september 2011.[16] De processors FX-4100, FX-6100, FX-8120 en FX-8150 werden uitgegeven in oktober 2011. De andere FX-serie-microprocessors werden aan het einde van het eerste kwartaal van 2012 uitgegeven.

AMD plant twee op Bulldozer gebaseerde serverprocessors: de Opteron-4200-serie (codenaam Valencia, tot 8 cores) en de Opteron-6200-serie (codenaam Interlagos, tot 16 cores).

Prestaties

bewerken

Prestaties op Linux

bewerken

Op 24 oktober 2011 toonde de eerste test, uitgevoerd door Phoronix, dat de prestaties van de Bulldozerprocessors ietwat tegenvielen.[17] In veel tests was de CPU slechts even snel als de oudere Phenom 1060T.

Later verbeterden de prestaties sterk doordat verschillende compilers optimalisaties doorvoerden en driverfixes werden toegepast.[18][19]

Prestaties op Windows

bewerken

De eerste Bulldozer CPU's werden onthaald met gemengde respons. De FX-8150 presteerde slecht in benchmarks die niet geoptimaliseerd waren om veel threads te gebruiken, en achter de tweede generatie Intel Core i-serie-processors te vallen en geëvenaard of zelfs achtergelaten te worden door AMD's eigen Phenom II X6 op lagere kloksnelheden. In sterk gethreadde benchmarks presteerde de FX-8150 hetzelfde als een Phenom II X6, en een Intel Core i7-2600K, afhankelijk van de test. Gezien de over het algemeen consistente prestaties vergelijkbaar met de Intel Core i5-2500K aan een lagere prijs, waren veel recensenten niet onder de indruk van de resultaten. De processor verbruikte ook extreem veel stroom onder hoge belasting, zeker wanneer overklokt, vergeleken met Intel's Sandy Bridge.[20]

Tom's Hardware verklaarde de lager dan verwachte prestaties door de manier waarop Windows de threads gebruikte. Als Windows eerst de vier verschillende modules zou beladen en dan pas de secundaire threads gebruiken zouden de prestaties gemaximaliseerd worden. Dit is gelijkaardig met wat Windows doet met Intel CPUs die HyperThreading ondersteunen; Windows 7 belast eerst de fysieke cores voordat het de HyperThreaded cores gebruikt.[21]

Op 13 oktober 2011 stelde AMD dat sommigen in de gemeenschap vonden dat de prestaties ondermaats waren maar toonde daarbij benchmarks van echte applicaties waar het de Sandy Bridge i7 2600K en de Phenom II X6 1100T versloeg.[22]

In januari van 2012 rolde Microsoft twee hotfixes uit voor Windows 7 en Windows Server 2008 R2 die de prestaties van Bulldozerprocessors significant opschroefde door de fysieke modules eerst te beladen.[23][24]

Op 6 maart 2012 plaatste AMD in een knowledge base artikel dat het wist van een compatibiliteitsprobleem tussen FX-processors en bepaalde games op het populaire Steam-platform. AMD had een BIOS-update gedistribueerd aan verscheidene moederbord-fabrikanten (Asus, Gigabyte, MSI en ASRock) die het probleem zou oplossen.[25]

Overklokken

bewerken

Op 31 augustus 2011 behaalden AMD en een groep van bekende overklokkers, waaronder Brian McLachlan, Sami Mäkinen, Aaron Schradin en Simon Solotko, een nieuw wereldrecord voor CPU-kloksnelheid met een onuitgegeven FX-8150 Bulldozerprocessor. Tot voordien stond het record op 8,309 GHz, maar de Bulldozer chip gecombineerd met vloeibare helium koeling behaalde 8,429 GHz. Het record is inmiddels gebroken door Andre Yang die 8,58 GHz haalde met vloeibaar stikstof.[26][27]

Herzieningen

bewerken

Tweede generatie (Piledriver)

bewerken

Piledriver is de codenaam die AMD gaf aan de verbeterde microarchitectuur die gebaseerd is op Bulldozer. AMD Piledriver cores zijn verwerkt in Socket FM2 Trinity en Richland APUs en CPUs en de Socket AM3+ Vishera CPUs.

Derde generatie (Steamroller)

bewerken

Steamroller is de codenaam voor de verbeterde versie van Piledriver. Steamroller cores zijn verwerkt in Socket FM2+ Kaveri APUs en CPUs.

Vierde generatie (Excavator)

bewerken

Op 12 oktober 2011 maakte AMD bekend dat Excavator de codenaam wordt voor de vierde generatie Bulldozer cores. Excavator zal gebruikt worden in de vierde generatie A-serie APUs in 2015. De codenaam voor deze APUs is Carrizo.[28]