Korrekturlæser: 
Billed behandling: 
Oversættelse: 

Pristjek på http://www.pricerunner.dk 
Produkt udlånt af: Sd-Data A/S
DK distributør: Sd-Data A/S
Produktet er venligst udlånt af: http://www.Sapphiretech.com
Produktet distribueres i DK af: http://www.midtdata.dk/
Link til producentens website: http://www.Sapphiretech.com

Teknologi og arkitektur:


Følgende er udvalgte dele fra henholdsvis Greforbs og Red_Martians artikler med enkelte ændringer og tilføjelser.

ATi har tidligere været vant til at sætte forbedrede chips fra deres foregående generation i mid-range kort i den nuværende generation. Dvs. at man kunne forvente, at Radeon X700 serien ville være baseret på Radeon 9800 arkitekturen, men dette er ikke tilfældet. RV410 (kodenavnet for X700) er i stedet baseret på X800 (R420/R423) arkitekturen, men med begrænset ydelse.
Som følge af dette burde man kunne forvente generelt bedre i ydelse i mid-range sektionen, men X700 kortene har også samme features som X800 kortene - f.eks. HD teknologierne (se nedenfor).

X700Pro har som sagt begrænset ydelse i forhold til X800 serien og denne begrænsning ligger først og fremmest i, at kortet kun har 8 pixel pipelines til rådighed. For X800 serien har kortene minimum 12 pixel pipelines og maximum 16.
Antallet af vertex pipelines forbliver dog uændret og man finder dermed 6 stk. på X700PRO. Til sammenligning har NVIDIA halveret antallet fra deres 6800 kort til deres 6600 kort.
RAM og core frekvenserne er også blevet sænket i forhold til X800 serien, bortset fra X800PRO og core frekvensen på X800XL.

Derudover er man ved X700 serien også skiftet til 110nm TSMC proces frem for 130nm TSMC low-k.



Ved at bruge en 110nm-proces kan ATi producere flere VPU'er per wafer. En wafer er den silicium-plade man producerer VPU'er med og det er ikke per chip, men en wafer chipproducenten køber. Så når der kan der være flere chips på waferen, bliver prisen per chip mindre! En mindre teknik lider til gengæld af børnesygdomme og giver oftest mange defekte chips i starten og er der et flertal af døde chips, er det en dårlig idé at bruge den nyere teknik. ATi har tilsyneladende fordel ved teknikken nu og skifter derfor til en finere produktionsteknik.

Angående overclocking skal vi ikke regne med et væsentligt bedre resultat, Godt nok er chippen produceret med en mindre teknik, der oftest betyder lavere temperaturer og bedre mulighed for overclocking, men da den mangler low-k kunne det godt tyde på at overclockingspotentialet er ca. det samme.

X700PRO i forhold til X800 serien:



R420 chippens vertex pipelines:
En vertex pipeline er den enhed i enhver VPU, der sørger for, at de geometriske data, der kommer ind bliver projiceret ned, så de kan vises på en almindelig 2-dimensionel skærm. Det er også en vertex pipelines job at fjerne unødvendigt data, så man ikke skal bruge yderligere tid på at behandle det. Basalt set, er R420 chippens vertex piplines ikke ret meget forskellige fra en R3xx pipeline. Den største forskel er, at man i en R420 pipeline nu kan lave såkaldte SINCOS instruktioner i én clockcykel. En SINCOS instruktion bruges, når man vil beregne sinus eller cosinus af et eller andet givet tal. I R3xx tager denne beregning væsentlig længere tid, fordi pipelinen først skal lave en række approksimationer, hvilket tager flere clockcykler. Når man skal lave geometriske beregninger, som er vertex pipelinens hovedopgave, bruger man meget ofte sinus og cosinus; derfor er det en kærkommen forbedring.



Som det ses på illustrationen kommer data fra vertex pipelines over i en setup motor, som sørger for, udfra de 2D projicerede data, at lave triangler og point sprites. Herefter deles disse op i såkaldte tiles, som så sendes til pixel shader enheden, der består af 16 pixel pipelines i Radeon X800XT og Radeon X800XT PE og 12 i Radeon X800PRO. Hver tile sendes til en blok på 4 pixel pipelines kaldet en quad (det er derfor antallet af pixel pipelines går op i 4, og man således ikke har f.eks 14 pipelines).

R420 chippens Pixel pipelines:
R420 er udstyret med op til 16 pixel pipelines i en såkladt 16x1 pixel pipeline arkitektur (Radeon X800 Pro har kun 12 pixel pipelines). Den er altså i stand til at rendere 16 single-textured pixels per clock. Det er det dobbelte af R3xx arkitekturen, som kun har 8 pixel pipelines. En anden forbedring, der er sket i R420 chippens pixel pipelines er, at der nu findes 32 midlertidige registre i stedet for de 12, der findes i R3xx arkitekturen.



ATi har også øget det maksimale antal af pixel shader instruktioner fra 120 til op til 1536 (512 for vektorer, 512 for skalarer og 512 for texturer, så det afhænger af, hvad der skal laves). En sidste ting, der er sket med de pipelines, der findes i R420 er at F-bufferen er blevet forbedret. F-bufferen gemmer de pixels, der allerede har været igennem pixel shaderen én gang, men som kræver endnu et (eller flere) gennemløb for at blive færdiggjort. ATi har indtil nu ladet driveren administrere dette, men nu har de indbygget en forbedret hardware-enhed, der tager sig af at administrere F-bufferen sammen med driver-softwaren.

Smartshader HD:
Smartshader omfatter de avancerede vertex og pixel shader funktioner i Radeon X800 serien. Når der skal skrives shader kode, kan man bruge en række forskellige sprog, men de mest brugte er HLSL (DirectX 9.0) og GLSL (OpenGL). Grunden til dette er, at de minder meget om C og C++ og er derfor lettere for programmørerne at forstå. En anden grund er deres evne til at blive afviklet på forskellig hardware.

Den normale procedure for at skrive et shader program, er ved først at udvikle en matematisk algoritme, der beskriver den ønskede effekt og derefter oversætte den til enten HLSL eller GLSL. Når koden er komplet vil programmørerne forsøge at kompilere koden til et bestemt "niveau" af grafisk hardware kompatibilitet. I DirectX kaldes disse niveauer for Shader Models og med DirectX 9.0 er man oppe på Shader Model 3.0.

Kompileren vil da forsøge at få shader programmer til at overholde de ressourcemæssige begrænsninger, som er gældende for den hardware, som shaderen er tiltænkt. Det kan f.eks. være antallet af instruktioner, konstante og midlertidige registre eller teksturer.

Hvis det mislykkes for kompileren at gøre dette, må programmørerne modificere koden, så begrænsningerne overholdes eller dele koden op i mindre dele. Det kan betyde at koden bliver kompileret uden fejl og den ønskede effekt opnås, men måske på bekostning af ydelsen. For at optimere ydelsen efter shaderen er blever kompileret, kræver det at man undersøger den kode som kompileren generer og det er både tidskrævende og besværligt.

Smartshader HDs opgave er at minimere antallet af gange, hvor ovenstående problem opstår og derved gøre det muligt at programmere mere komplekser, detaljerede og realistiske effekter. Eksempler på disse effekter er High Dynamic Range, Light Shaft Rendering, Subsurface Scattering, Shoft Shadows og Virtual Displacement Mapping, som alle er beskevet i teknologiafsnittet til vores Geforce tests. Du kan finde et link til en af disse ved at klikke her.

Hyper Z HD:
ATi kører for øjeblikket med et High Definition Gaming tema. Deraf stammer "HD" i Hyper Z HD. I hver quad findes der et Hyper Z HD modul, som består af tre ting, som det også fremgår af illustrationen: Hierachical Early Z Test, Z/Stencil cache og Z Compression & Fast Clear.



Hierachical Early Z Test mekanismen sørger for, at hvis hele den tile som kommer fra setup motoren er occluded (skjult af andre, som ikke ligger så dybt i billedet), bliver den smidt væk. Hvis der kun er dele af en tile, der er occluded smider man disse dele væk, hvis det er muligt. Herefter er mange af de pixels, der var occluded blevet smidt væk, men ikke alle, så man er nødt til at checke dem igen, når de kommer ud af pixel pipelinen. Kort sagt: Hierachical Early Z Test smider en stor del af den scene væk, der ellers ville være dækket af andre dele og man sparer således en masse rendering. Z/Stencil bufferen er blot en buffer som bruges af ovenstående mekanisme. Z Compression sørger for at komprimere det data, der ligger i Z cachen, mens Fast Clear sørger for, at få slettet Z-bufferen meget hurtigt efter hver frame. De ting, som jeg nu har nævnt kender vi egentlig fra tidligere Hyper Z versioner. Eneste forskel fra R3xx til R420 er hastigheden hvormed Hyper Z HD kører. Den er betydeligt hurtigere end Hyper Z III, som vi så i R3xx arkitekturen.

3Dc Normal Map kompression:
3Dc er et kompressionsskema, som skal hjælpe med at sørge for at båndbredde ikke bliver et problem i VPU'en, selvom en udvikler ønsker at presse meget data gennem grafikkortet. Normal Mapping er en forbedret bump mapping, som bruges til at gøre lysvirkninger i en overflade mere detaljerede end dens geometri. Man laver først en model som har en meget høj detaljegrad med en masse polygoner. Herefter laver man den model man egentlig vil bruge i sin applikation. Udfra disse to beregner man den forskel der er og gemmer denne som et Normal Map. I sin applikation kan man nu bruge den simple model og via sit Normal Map udregne lysvirkingen med en pixel shader. Herunder ses et eksempel:



Med 3Dc kan man komprimere disse Normal Maps og dermed enten øge detaljegraden (ved at lave den første højdetaljemodel med endnu flere detaljer) eller øge ydelsen i sin applikation (fordi den nuværende detaljegrad kan komprimeres mere). Med 3Dc kan man komprimere sine Normal Maps med op til 4:1 uden at miste ret meget detalje:



Smoothvision HD:
Smoothvision HD er navnet på ATi's nyeste måde at udføre Full Scene Anti Aliasing (FSAA) på. Egentlig har ATi lige siden R3xx implementeret mulighed for at bruge forskellige sample patterns. Med R420 introduceres en ny teknologi som kaldes Temporal FSAA og som er baseret netop på den førnævnte mulighed for forskellige sample patterns. Temporal FSAA bruger forskellige sample patterns på lige og ulige frames i en scene, hvilket gør dem en smule forskellige. Hvis frameraten er høj nok kan det menneskelige øje ikke skille de to frames ad. Det betyder at sampling raten på skærmen effektivt er fordoblet. Man kan ikke se effekten af Temporal FSAA på screenshots for man vil altid fange enten en lige eller en ulige frame. Det er meget åbenlyst hvad idéen bag denne type af Anti Aliasing er, nemlig at snyde det menneskelige øje til at tro at "hakkerne" i billedet ikke er der.
Der er naturligvis også nogen ulemper ved Temporal FSAA, bl.a. skal man have en framerate på over 60 FPS, ellers kan det menneskelige øje se forskel på de forskellige frames og billedkvaliteten vil blive ringere end ellers og ikke bedre, som det var meningen. Hvis frameraten kommer under 60 FPS slås der automatisk over til almindelig FSAA. En anden ting er, at V-sync altid er slået til, når man bruger Temporal FSAA. Dvs. hvis kører benchmarks får man givetvis et lavt resultat. Som det ses af følgende illustration svarer eksempelvis 2xTAA til 4xAA:



Videoshader HD:
Videoshader HD gør det muligt for video processing enginen at udnytte de programmerbare pixel shadere i X800 kernen. Dette tillader at shadere kan bruges til at accelere mange forskellige video opgaver, såsom de-blocking, adaptive de-interlacing, framerate conversion, color space conversion og meget mere.
De fleste er ting som kun de færreste brugere kender til, enten fordi de ikke komprimerer videofiler eller fordi processerne kører automatisk. Noget som de fleste af os dog kan nikke genkende til, er det som ATi kalder Fullstream.
Når man streamer videofiler fra internettet, er det tit med en lav bitrate og et dårligt billede til følge. Fullstream er et sæt avancerede filtre, der udfører operationer, der minder om Anti-Aliasing og Anisotrofisk Filtrering - blot til videofiler.



Fullstream analyserer den viste video og påfører de nødvendige filtre for at optimere billedkvaliteten, så brugeren ikke generes af de fejl, der opstår når bitraten er lav.
guanomo
 
Overclocker
Tilføjet:
20-04-2005 21:46:51
Svar/Indlæg:
47/8
Jeg har et spørgsmål...... hvordan virker det HL2 timedemo test? fps tæller jo bare? skal gå efter højest eller alvest? eller hvordan?

Men x700 vs 6600GT undrer mig ikke, alle steder man kigger vinder 6600GT over x700. Men ser fedt ud med den køler, men burde ik være derofr man købte kortet.



Woodgnome
 
Elitebruger
Tilføjet:
24-04-2005 11:08:33
Svar/Indlæg:
1888/560
Så vidt jeg ved kører HL2 bare demoen igennem og tæller antal sekunder. Den outputter jo antal sekunder, antal frames og så må frames pr. sekund bare være regnet ud. Dvs. HL2 outputter average og ikke højest/lavest

Jeg plejer altid at køre 4 runs i træk, smide første run ud (pga. den loader textures i det run) og så tage gennemsnittet af dem.

Ved ikke lige om det var den info du søgte, men spørg hvis der er andet :)

Mht. 6600GT vs. X700 så vidste jeg godt at 6600GT er det hurtigste, men det der undrer mig er, at det følger rimelig med i 3DMarks og i andre reviews følger det også rimelig godt med, men i mine benchmarks bliver det jo jordet godt og grundigt...