Test: Intel Core 2 shootout

CPU, Intel d.  24. januar. 2008, skrevet af Polarfar 11 Kommentarer.  Vist: 21534 gange.

Korrekturlæser: 
Billed behandling: 
Oversættelse: 

Pristjek på http://www.pricerunner.dk 
Produkt udlånt af: Hasee.dk
DK distributør: Hasee.dk

Teknologien bag Core 2

 

Højere IPC – Flere instruktioner på samme tid

Lad os tage en uddybning af alle teknologierne, og en forklaring af Core 2's design...

Med Core 2 har Intel valgt et design, der i langt højere grad end før fokuserer på en høj IPC. Dette er der flere grunde til, men at være mindre afhængig af clockfrekvensen har en række klare fordele.

Dels stiller det mindre krav til hvor høje ”trin” der skal være imellem de clockfrekvenser man tilbyder. Et spring i clockfrekvens på eksempelvis 200Mhz kan sagtens forsvares fordi ydelsesforskellen er til at øje på. Dette betyder dels noget for slutbrugerne, men på det professionelle marked kan dette være rigtig fornuftigt fordi man få kunderne til løbende at opgradere til nyeste processorer fordi de kan mærke en reel forbedring i ydelsen. AMD har med stor succes gjort dette med Opteron-processoren, som på 2½ år er gået fra max 2GHz clockfrekvens til max 2.8GHz for hurtigste model. Ikke ligefrem et kvantespring, men trinene har været store nok til at folk har fundet det rimeligt at opgradere.

En anden fordel ved at være mindre afhængig af clockfrekvensen finder man i den anden ende af skalaen. Intel fik med Pentium M processoren vist at SpeedStep – hvor man dynamisk ændrer clockfrekvensen og processorspændingen efter behovet for regnekraft – havde enormt potentiale. AMD tog dette op med Cool’n’Quiet i deres K8 processorer og for begge arkitekturer gjaldt det at man selv ved lav clockfrekvens havde en fair ydelse – ene og alene fordi IPC’en var høj.

Dette er endnu en grund til at den høje IPC bør være vinder, men hvordan har Intel så grebet sagen an? Dels har man valgt en noget reduceret pipeline, som er på 14 stages. En kort pipeline er dog i så selv ikke alene nok til at give mere effektivitet, så Intel har tilført Wide Dynamic Execution. ”Almindelig” Dynamic Execution handler om at snyde processoren til at se en række instruktioner som én stor instruktion og derfor tage disse samlet og i rækkefølge. Grunden til at Dynamic Execution nu er blevet ”Wide” er at Intel i Core 2 arkitekturen har tilføjet en ny decoder og execution unit, så processoren nu kan håndtere fire x86 instruktioner samtidigt. Både Intel’s tidligere og AMD’s nuværende processorer kan maksimalt køre 3 x86 instruktioner samtidigt. Man får altså ikke bare en kortere pipeline, men også en bredere pipeline, som yderligere hæver IPC’en.

 



Mere cache

Dertil har man øget mængden af L1 cache i forhold til Pentium 4. Core 2 processorerne har fået 64KB L1 cache, hvilket er fordelt ligeligt imellem data og instruktion. Dette er langt mere L1 cache end i Pentium 4 arkitekturen, der grundlæggende havde 8KB L1 cache til data og 12KB til instruktion. Da Intel skiftede fra Northwood til Prescott blev mængden af cache til data fordoblet fra 8KB til 16KB, men Core processorerne har altså mere end det dobbelte.

L2 cache bliver på enten 2MB eller 4MB afhængigt af model, men da der er tale om dual-core processorer vil L2 cache’en blive delt imellem de to CPU kerner. Dette sker fordi Intel har implementeret deres Smart Cache. Med den kan man dynamisk allokere cache-mængde til hver enkelt processorkerne. Kører man således en applikation, som kun kan udnytte den ene processor vil denne ene processor få den fulde mængde cache til sin rådighed.

Dette er på papiret smart, men som man hurtigt vil se så er denne feature meget lidt værd i praksis – en dual-core processor vil nemlig næsten altid bruge begge cores i større eller mindre grad fordi operativsystemet (og flere andre underliggende applikationer) bruger CPU-tid. Derfor har Intel med deres Smart Cache implementeret en Crossbar funktion, som dynamisk deler cache-mængden imellem de to processorkerner.

Udover denne glimrende funktion har Intel gjort en del for at pre-fetche data til cache’en endnu bedre end før. Dels er selve pre-fetch algoritmen optimeret, men en ny feature går ud på at hvis processor-kerne 1 skal bruge data som ligger i cache’en hos processor-kerne 2, så kan processor-kerne 1 tage den databid direkte. Tidligere ville man i dette tilfælde skulle have data’en ud af processor-kerne 2’s cache og ind i processoren igen, hvilket gav høj latency.

 



Men ikke kun data til cache pre-fetches bedre. Intel Smart Memory Access dækker over en generelt forbedret pre-fetch del i processoren. For x86 kode gælder det normalt at cirka 20 procent af instruktionerne kræver adgang til hukommelsen og her er netop prefetch-delen vigtig. Core 2 processorerne har her seks uafhængige pre-fetch enheder, der alle har en forbedret algoritme til at ramme præcis den data som processoren skal bruge. Dertil har Smart Memory Access fået en ny feature, som tillader at en ny instruktion kan startes selvom den er afhængig af resultatet af en tidligere instruktion – dette minimerer out-of-order, hvor en instruktion ellers må bremses fordi der ventes på data.

EM64T, SSE, osv.

En anden stor forbedring i Core 2 arkitekturen er at 64-bit understøttelsen er på plads i alle processorer. Intel benytter fortsat sin egen EM64T (Enhanced Memory 64 Technology) til at varetage 64-bit delen, men som Intel’s markedsføring tegner sig vil det primært blive på server-området at man vil slå på EM64T. Dette giver såmænd også ganske god mening, da der mangler langt bedre softwareunderstøttelse for at 64-bit kan blive en succes på desktoppen.

SSE instruktionssættet vil også blive forbedret i Core 2 arkitekturen. Således vil alle 128-bit SSE instruktioner nu kunne beregnes på en enkelt clockcyklus – tidligere krævede dette to af slagsen. Da SSE instruktioner oftest benyttes ved multimedia kalder Intel denne nye feature for Intel Advanced Digital Media Boost.

 



SSE4 finder også vej til Core 2 – Pentium 4 processorerne havde SSE, SSE2 og SSE3, men nu kommer der yderligere 8 instruktioner, som samles under SSE4 betegnelsen. Disse var tidligere tiltænkt Tejas-processoren, som Intel droppede til fordel for netop Core arkitekturen. Derfor blev disse også tidligere kaldt TNI (Tejas New Instructions), men er nu en del af SSE3.

NX (No eXecutable) Bit vil uændret finde vej til Core 2 og dermed tilbyde samme beskyttelse overfor skadelig kode, som Intel fik introduceret i sine seneste Pentium processorer. Også Intel’s VT (Virtualization Technology) vil være standard i Core 2 processorerne, der igen overtager disse teknologier uforandrede fra de seneste Pentium processorer.

Core 2 Quad

Nu hedder det jo godt nok quadcore, altså en fire-kernet processor. Men hvis vi skræller låget af og kigger på den fysiske opbygning, så er det nok mere korrekt at kalde det for en dual-dualcore. Simpelt sagt er eksempelvis en QX6850 2 styks E6850 på ét PCB, der kommunikerer over FrontSideBus'en, Akkurat ligesom en maskine med 2 seperate processorer på et bundkort gør. Eller på samme måde som Pentium D gjorde med 2 singlecores. Men siden pentium D er FSB'en er blevet så hurtig at de 2 kerner kan dele cachen indbyrdes udenom FSB'en, og så er denne "falske" quadcore løsning slet ikke så ringe endda.

 

          

Her ses forskellen på henholdsvis Kentsfield(Core2Quad - tv.) og Conroe(Core2Duo - th.)

Grunden til at Intel har valgt at lave deres quadcores på denne måde, skyldes højest sandsynligt at chippen ellers ville være for kompleks. AMD, der er ved at udvikle de første ægte quadcore, har i øjeblikket store problemer med at få deres nye serie af processorer til at virke ordenligt. Alligevel har Intel planer om at lancere ægte quadcores, men først når teknologien er moden til det.

Siden Core 2 Quad i bund og grund består af 2 sammenklistrede Core 2 Duo, understøtter den naturligvis også de gængse teknologier som sidstnævnte. Herunder Enhanced Intel Speedstep(EIST) der underclocker og undervolter processorkernerne når de ikke bliver belastet ret meget, samt SSSE3-instruktioner der giver forbedret ydelse i visse applikationer.


Lavere strømforbrug

Strømforbruget har været en særdeles vigtig faktor i udviklingen af Core 2 arkitekturen og det har betydet at Intel yderligere har arbejdet på at sænke dette. Dels benytter man deres Enhanced SpeedStep, som tilpasser processorens clockfrekvens – og dertil også processorspændingen – til behovet for regnekraft.

Yderligere har man forbedret muligheden for at kunne lukke ned for dele af processoren når disse ikke skal bruges. Som en del af Intel’s Smart Cache har Intel implementeret at processoren kan lukke sin cache helt ned – simpelthen ved at flushe data’en – og synke til et endnu lavere energiniveau. Når der igen er brug for databehandling, som kræver cache, så startes den dynamisk op igen og processoren går tilbage i sit normale energiniveau. Denne feature så man allerede på Yonah-processoren, men nu finder den vej til Core 2 også.

Ydermere er Core 2 processoren delt ind i mange mindre områder end eksempelvis Pentium 4 var. Disse mindre dele kan derfor oftere lukkes ned, hvis der ikke er brug for dem og det giver igen et lavere effektforbrug.

En pudsig detalje omkring dette er at Intel dermed har fået svært ved at angive processorens temperatur. Undervejs i udviklingen fandt man simpelthen ud af at processortemperaturen kunne variere meget imellem de forskellige områder, hvorfor en almindelig løsning med en enkelt temperaturdiode ikke altid ville give et præcist billede af processorens temperatur. Derfor har man i Core 2 processorerne placeret flere dioder rundt i processoren og når man checker temperaturen på sin Core 2 processor er det faktisk et gennemsnit af disse forskellige værdier, som man aflæser.

 

DotMatrix
 
Superbruger
Tilføjet:
24-01-2008 00:18:53
Svar/Indlæg:
345/63
spændende sammenligning syntes jeg. giver indblik i hvad man får for pengene osv.


Anonym20219355916
 
Elitebruger
Tilføjet:
24-01-2008 05:42:00
Svar/Indlæg:
6181/270
nåt i tester strømforbruget er det så ikke hele systemets strømforbrug og ikke bare cpu'en?


hamderD
 
Elitebruger
Tilføjet:
24-01-2008 06:19:59
Svar/Indlæg:
7263/260
Rigtig god artikel, man for rigtig set hvad man skal gå efter og ikke.


Polarfar
 
Senior Skribent
Tilføjet:
24-01-2008 06:43:52
Svar/Indlæg:
2309/846
#2
det er hele systemets forbrug. Det er derfor jeg har skilt strømtesten i to så man kan se først hvad det trækker når CPU belastes 100%, og bagefter når man afvikler Crysis der belaster grafikken. 🙂

Der vil naturligvis være forskel i strømforbruget ( og ydelsen! ) på en maskine med P35 chipset og et enkelt 8800GTS, og eksempelvis en 780i baseret med to 8800GTX'er.

Polarfar


scheea2000
 
Superbruger
Tilføjet:
24-01-2008 08:04:58
Svar/Indlæg:
818/58
Meget fed test. Det er sgu sjældent at tests giver et større overblik og ikke kun for 2 marginal CPU´er. 3 kommentarer dog:

1. I mangler lidt den ekstreme populære Q6600.
2. (Mere generel kommentar) Jeg kunne godt tænke mig en cost/benefit, fx hvad koster forskellen i super PI eller nogle af de andre relevante test. Fx 6850 vil nok være optimal i nogle sammenhænge.
3. Kan det virkelig være rigtigt at der kun er en reduktion på 24 s. fra en 2.33 GHz dual core CPU til 1200 kr til en 3.2 GHz QX9700 til (hvad?) 6000 kr på trods af at DVDshrink udnytter ekstra 2 kerner og 1 GHz? (Forskellen er mere markant i fx Multimedia Benchmark) 😕


Polarfar
 
Senior Skribent
Tilføjet:
24-01-2008 10:03:14
Svar/Indlæg:
2309/846
#5
1 - ja vi gør, og det er faktisk lidt ærgerligt vi ikke kunne skaffe en, men så må du trække ca. 10% fra QX6700, så er det nogenlunde der den lander.

2 - Jeg har lavet nogle små hints til havd man kan bruge de forskellige chips til. En Celeron 420 er lavet til kontormaskiner - ikke andet. En E2160 er jo i princippet blot to Celeroner på samme print, og derfor dobbelt op på ydelsen. Men allerede her begynder det at blive anvendeligt til spil - jeg sagde anvendeligt, og ikke godt ! De lidt større 4MB dualcores er nogen seje sataner der giver dig både en kraftig workstation og en solid spilleplatform. Og så er det jo lidt ærgerligt at vi ikke lige havde en Quad der ligger i samme prisleje.

3 - Det er 1.1GB DVD der komprimeres til 60% af oprindelig størrelse. Skulle vi have nappet hele DVD'en er forskellen ca. 4 gange større eller 1min 36sek. Du sparer altså 1½ minut ved at bruge en hurtig quadcore på en hel film. Om det så er pengene værd kommer jo an på kravene. Oftest vil det være sådan at de folk/firmaer der investerer i cpu'er til 7000kr også har nogle regneopgaver af en størrelse der gør at pengene kan tjenes hjem igen alene på sparet tid.


Ingdam
 
Elitebruger
Tilføjet:
24-01-2008 11:49:43
Svar/Indlæg:
1771/62
Super fed test, kunne dog være mega fed hvis alle cpuer blev oc'et 😉 😛


HardwareNoob
 
Superbruger
Tilføjet:
24-01-2008 15:55:53
Svar/Indlæg:
74/17
Findes der noget bundkort, der kan tage 2 processorer. Det gjorde der i gamle dage (og vel også stadigvæk) så man fx kunne smide to E6850 på samme bundkort, i stedet for at skulle ud og købe en qx? Fx når man engang skal til at opgradere sin pc?


jmose
 
Moderator
Tilføjet:
24-01-2008 19:33:45
Svar/Indlæg:
3863/538
#8 Ja, men så hedder CPU´en Xeon og platformen LGA771..Desværre er det en bekostelige affære...De billigste LGA771 boards starter vist lige omkring 3000kr, læg dertil 2x CPU af xxxx kr og så har du allerede rundet 5-6000..

Man skal virkelig have et behov der siger spar2 for at vælge en sådan løsning..Specielt også når man tænker på de nye .45Nm Quads der rammer butikkerne meget snart.


hamderD
 
Elitebruger
Tilføjet:
25-01-2008 17:12:33
Svar/Indlæg:
7263/260
Den er så fed den QX9770 ❤ 🙂


Erroneus
 
Elitebruger
Tilføjet:
26-01-2008 11:53:07
Svar/Indlæg:
673/19
Udemærket shoot-out, bare synd at 8xxx serien har ramt landet imens. SÅdan en 8400 er jo tosset billigt og så er dens watt forbrug jo imponerende, hvilket gør den meget OC venlig.