返回列表 回復 發帖

[顯示卡] DX 10 + Unified Shader NVIDIA GeForce 8800家族登場



NVIDIA 花了近 3 年的進行資料搜集和研發,並與 Microsoft 緊密合作,繼 DirectX 7 和 DirectX 9.0c 後再度領先對手,
推出全球首款支援 DirectX 10 及 Unified Shader 架構的繪圖晶片,核心代號為 G80 的新一代高階產品 --- GeForce 8800 家族正式登場。




隨著 Microsoft 新一代作業系統 Vista 發佈進入倒數階段,象徵繪圖技術也將邁入新的里程碑。全新 DirectX 10 規格主宰未來遊戲市場大方向,使得繪圖晶片雙雄紛投入龐大資金與人力進行研發,其中 NVIDIA 花了近 3 年的時間搜集資料,並與 Microsoft 緊密進行研究開發,繼先前於 DirectX 7 和 DirectX 9.0c 後再度領先對手 ATI ,推出全球首款支援 DirectX 10 繪圖晶片,核心代號為 G80 的新一代高階產品 --- GeForce 8800 家族。

Direct X 已成為現時最普遍的 API ,全因其無需授權、豐富的功能並容易使用,受到遊戲廠商的歡迎,不過,現有的 DirectX 9 版本規格及硬體設計,卻為遊戲設計者帶來很多限制。

在繪圖程序 API 尚未面世前,程式設計師需要直接編寫程序控制 3D 繪圖卡,雖然這是十分具效率的方法,但在兼容性上表現欠佳,使得程式設計師需為不同的硬件作出不同的程序庫,以達兼容效果,此舉費神又耗時,因此,業界便發展出統一規格,程序設計師與繪圖卡硬件均以統一 API 作溝通媒介,僅大幅減低程式設計師與繪圖硬件廠商在兼容性上的顧慮,現時最普遍的 API 為 Direct X 及 OpenGL 。

不過 API 應用亦有所限制;在遊戲軟件中的每個角色、武器及景物,在 3D 程序上均是一個物件 (Object) ,而每一幀遊戲畫面就可能出現數百個 Object ,當每個 Object 由程序傳送至 DirectX 9 API ,再傳送至驅動程式時,均需要經過處理器作出處理,當 Object 越多、對處理器負擔亦同時增加,並需要更長的執行時間而因此造成瓶頸,稱為 API Overheard ,所以廠商在設計遊戲時均需要在效能和質素中作出取捨。

而新一代 DirectX 10 針對 API Overheard 作出改善,全新的核心設計改善了 Validation 的機制,上代 DirectX 9 版本每使用一個 Object 時,均須進行確認資源的動作,但全新 DirectX 10 則只會在該 Object 產生時,才會進行此確認動作,之後再使用 Object 時,確認動作則會被省略,此舉將大幅降低處理器資源使用。

此外, Satae 管理 ( 例如重覆設定 Textures 、 Constants 及 Blending modes 等 ) 均是 DirectX 9 中,十分損耗處理器資源的動作,關鍵在於 DirectX 9 並未批次進行機制,限制 Readering 的速度,因此 DirectX 10 加入了 State object 及 constant buffers 架構,容許指令採用批次操作運行,大幅減少處理器負擔。

DirectX 10 大改良 部份功能不再需要處理器介入

另一方面, DirectX 10 亦新增多項功能,均有助程序設計師節省處理器作業,包括 Texture arrays 及 Predicated draw 。

在 DirectX 9 時代, Multiple texture 轉換動作是十分浪費處理器資源的動作,而全新 DirectX 10 推出 Texture arrays ,容許最多 512 個 Texture 存放在同一個 Array 架構中,並擁有全新指令讓 Shader 程序可以動態索引 Texture array ,且全由繪圖核心作運算,減低處理器的負載。

在 3D 世界裡,不少物件會被其他物件覆蓋,而不被顯示在畫面中,只要能偵測出此不被顯示物件,即能省去不必要的運算,減低資源損耗,雖然繪圖核心中已擁有類似偵測機制,但仍有部份沒有顯示的物件未能省略,正因如此,程式設計師會採用 Predicated draw 技術,所有物件先會被制作成一個近似的方塊,如果該方塊未被顯示在前景中,則會被省略,過去此技術同時需要處理器及繪圖核心運算,但在 DirectX 10 中已完全採用繪圖核心作運算,不再需要處理器介入。

由於 DirectX 10 大幅減少處理器介入,降低處理器出現瓶頸的機會,促使 DirectX 10 可讓遊戲軟體開發商使用更多 Object 於程序中,令遊戲畫面呈現更具真實感。

DirectX 10 支援全新 Shader Model 4.0 版本



DirectX 10 採用全新的 Shader Model 4.0 ,進一步提高 Shader 程序的資源限制 , 在舊有版本中 , 程式設計師相當重視 Register 資源不足問題 , 而 DirectX 10 大幅提高限制 , 例如 Temporary Registers Buffers 提升至 4096 、 Constant Registers Buffers 提升至 65536 (16 個 4096 Buffers) , 令程式設計師擁有更大的彈性。

此外,首次出現於 DirectX 9 的 Higher Level Shading Lanagage(HLSL) ,亦會在 DirectX 10 提升至 HLSL 10 版本,並新增 Texture array 功能 , 可容許最多 512 個 Texture 存放在同一個 Array 架構中 , Texture 最高解像度由上代 DirectX 9 的 4096 x 4096 增至 8192 x 8192 , 而且每個 Shader 可使用的 Texture 亦提升至 128 個 , 為上代的 8 倍 , Render Targets 亦由上代 DirectX 9 的 4 個 , 提升至 DirectX 10 的 8 個 , 因此 , DirectX 10 可令 3D Object 擁有更多的細節 ,更具真實感。



DirectX 10 新增兩種 HDR 模式

Direct X10 推出兩種全新的 HDR(High Dynamic Range Rendering) 模式,首款是 R 11G 11B10 ,採用 11-Bit 紅色和綠色、 10Bit 藍色,另一款是採用 5Bit 共享 + 每種顔色以 9Bit 作尾數運算,以上兩款 HDR 模式均可減少資源損耗及使用頻寬。另一方面, DirectX 10 為了更高層次的精密運算加入 FP32 支援,提供更高質素的 HDR 效果。

DirectX 10 加入全新 Geometry Shader 設計



DirectX 10 首次加入 Geometry Shader 設計,將有助提升 Stencil Shadows 、 Dynamic cube maps 及 Displacement mapping 的熱行效率,並減少處理器介入。Geometry Shader 處於 Vertex Shader 及 Rasterizer( 光柵控制器 ) 之間,當 Vertex Shader 輸入一組 Vertex 結果後, Geometry Shader 可將其輸出達最高 1024 個 vertices ,稱為 Data amplification ,同時亦可把部份不必要的 vertexes 除去,稱為 Data minimization ,這兩項功能使得繪圖運算將較以往更具效率。

Geometry Shader 亦支援 Displacement Mapping 配合 Tessellation( 鑲嵌 ) 技術,其工作完全由繪圖核心完成。 Displacement 是十分常見的技術,用於非實時渲染使用於 3D 運算中,它容許一個非常複雜的模型,由一個簡單的模型配合特別的 Texture 組成,稱為 Height maps 。Height map 是一個灰階的 Texture ,在渲染時,一個簡單的多邊形模型可被鑲嵌更多的多邊形,透過 Height map 的資訊,組成一個完整細節模型。

但由於上代 DirectX 9 並不支援多邊形被額外加入資料,因此不可以透過簡單的多邊形模型被鑲嵌更多的多邊形,嚴重限制 Displacement Mapping 的應用,而 Direct X10 新增的 Geometry Shader 則打破此一侷限,真正讓 Displacement Mapping 可配合 Tessellation 實時進行,讓物件表面更具真實感。

此外, Geometry Shader 能處理原始的 Vertices 、 Lines 及 Triangles ,但每個 Shader 每次輸出不能多於一種,但其採用 Adjacent vertices 將鄰近物件作出輪廓計算,用於卡通式的渲染及軟毛渲染效果將更加優秀。

值得注意的是, Geometry Shader 部份工作完成後,按照過往的流水線設計,需要經過 Rasteriszed( 光柵化 ) ,再傳至 Pixel Shader 部份,才能傳送至繪圖卡記憶體上, DirectX 10 亦加入全新的 Stream output 功能,其可讓 Vertex 、 Geometry Shader 的運算結果直接輸出至繪圖卡載記憶體上,不需再通過 Pixel Shader 程序,進一步提升不需要使用 Pixel Shader 運算的 Vertex 、 Geometry Shader 指令的執行效率, Stream Output 將有利繪圖核心作 Physics 及 General Computations 運算。

圖左為GeForce 8800GTX、圖右為GeForce 8800GTS

原先市場普遍預期 ATI 透過與 Microsoft 合作 Xbox 360 繪圖晶片後,可望在 Direct X10 大戰中率先取得優勢、一雪前恥,然事與願違,
此次仍遭 NVIDIA 搶下頭香,領先推出業界首款支援 Direct X10 的繪圖核心 G80 ,其亦為市場首款支援 Unified Shader 架構的繪圖產品。



傳統繪圖晶片架構設計分為 Vertex Shader 及 Pixel Shader 渲染引擎,當 Vertex Shader 引擎被完全負荷時, Pixel Sahder 引擎可能只有很輕微的工作量或是被閒置,反之亦然,使其繪圖核心的運算能力未被充分發揮造成浪費,當 Direct X10 將渲染流程更細分為 Vertex Shader 、 Geometry Shader 及 Pixel Shader ,此一情況將會更為明顯,因此, NVIDIA 新一代 G80 繪圖核心採用 Unified Streaming Processor ,可處理 Vertex 、 Pixel 及 Geometry ,減少工作份量偏向單一 Shader 工作,導致工作量不均衡或閒置,執行效率較傳統繪圖晶片架構有著顯著提升。



據 NVIDIA 表示, G80 繪圖核心擁有 128 個 Streamam Processor (SP) ,內建專門化高速指令解碼及執行邏輯,每 16 個 Stream Processor 為一組,並聯合 8 個 Texture Filtering Unit 及 4 個 Texture addressing ,且擁有 On-chip Memory(L1 及 L2 Cache) 用作快速存緩之用。

由於 G80 的 Streaming Processor 可同時執行 2 個 MAD 及 MAI ,最高可達 520 g igaflops 運算能力 (GTX@ 1.35G Hz) ,且支援 IEEE 754 Floating point prcision ,可同時容許過千個獨立的執行緒於繪圖核心中平衡運算,稱為 GigaThread 技術,更適合異類運算工作 (Heterogeneous Computing) ,例如 Physics 運算、影像編碼運算等,讓繪圖卡的應用範疇大幅擴張。

NVIDIA 指出, G80 繪圖核心設計已針對 Physics 作出強化,稱為 Quantum Effects 技術, G80 的繪圖核心針對煙、火、爆炸及大量的 物件外射動作作出物理運算 ,其執行效率是處理器所無法比擬。


舉例來說,一個擁有 8 個 Pixel Shader Processor 及 4 個 Vertex Shader Processor 的繪圖核心(圖上左),當執行大量 Geometry 工作時,其效能將會限制於有限的 Vertex Shader Processors ,效能指標為 4 ,相反地,當執行大量 Pixel 工作時,亦會限制於有限的 Pixel Shader Processor ,效能指標為 8 。但假設採用擁有 12 個 Unified Streaming Processor 架構(圖上右),由於可運算 Pixel shader 或是 Vertex Shader 指令,因此無論是偏重於 Geometry 或是 Pixel 工作,其效能指標均為 12 。

G80 全新 Lumenex 引擎

NVIDIA 於全新一代 G80 繪圖核心中進一步強化 3D 遊戲畫面質素,稱為 Lumenex 引擎。 Lumenex 為遊戲帶來全新高質素的 Anti-Aliasing(AA) 及 High Dynamic Range 。全新的反鋸齒技術將同時利用 Coverage samples 及 Geometry Sample 採樣,稱為 Coverage Sample Anti-aliasing (CSAA) 。 CSAA 為單顆晶片帶來四種不同的 Multi-sampled Anti-aliasing 模式,包括 8x 、 8xQ 、 16x 及 16xQ ,其中 8xQ 及 16xQ 模式的畫面質素更是進一步極致化。

據 NVIDIA 表示,全新的 CSAA 16x 反鋸齒模式效能將會和使用一般 4x Multi-sampled Anti-aliasing (MSAA) 模式相約,但影像質素將有明顯的加強。不過,當遊戲採用大量的 Stencil Shadow 時,會導致 CSAA 運算速度變得遲緩,因此, CSAA 模式將不會被啟動,而被降至 4x MSAA 模式。圖下為 4x MSAA 與 16x CSAA 比較。



此外, G80 配合 Direct X10 推出全新的 32-bit floating point 精確度,提供全新的 128bit precision 的 High Dynamic Range (HDR) ,可與 Multi-sampled Anti-aliasing 技術同時運作,讓 HDR + AA 模式不再是對手 ATI 的專利。

至於影像輸出方面, G80 亦由上代的 8-Bit 影像輸出提升至 10-Bit 影像輸出,由以往的 16.7 m illion 色輸出,提升至超過 1 billions 色輸出,令畫面色彩更為豐富及逼真。



G80︰HDCP Ready 支援全新PureVideo HD技術

據 NVIDIA 表示, GeForce 8800 家族全線產品將支援 HDCP(High-bandwidth Digital Content Protection) , HDTV 、 Blu-Ray 及 HD-DVD 的影像內容均會被加入 HDCP 保護, 不支援 HDCP 的繪圖卡,其高清視像內容 1080p 將會被強行降格至 540p 。

此外, GeForce 8800 家族亦會支援新一代 PureVideo HD 技術,除能應付未來 HDTV 、 Blue-Ray 及 HD-DVD 等高清影訊運算,及支援 720p 、 1080i 及 1080p 等解像度外,並支援 H.264 、 VC-1 、 WMV-HD 及 MPEG-HD 編碼。

最值得注意的, GeForce 8800 家族並將首次支援 HD Noise Reduction( 高清影訊除雜訊 ) 及 HD edge enhancement ( 高清影訊邊緣強化 ) 。據 NVIDIA 指出, GeForce 8800 家族在 HQV 影像測試中,拿下 128/130 分優秀成績,為現時所有繪圖卡中播放效能最佳的產品。

[ 本帖最後由 天一 於 2006-12-21 09:00 AM 編輯 ]

圖上為MSI GeForce 8800GTX實物

NVIDIA 新一代 G80 高階繪圖核心正式登場,正式命名為 GeForce 8800 家族,擁有 6 億 8 千 1 百萬個電晶體,是上代 G70 繪圖核心的兩倍以上,最高型號為 GTX 版本。儘管 NVIDIA 早已在中階產品導入 80 奈米制程,但為令良率保持合理水平, G80 繪圖核心仍採用較成熟的 90 奈米制程,並由 TSMC 代工。

GeForce 8800GTX 繪圖核心編號為 G80-300 ,擁有 128 個 Unified Stream Processor 、 64 個 Texture Filtering Unit 、 32 個 Texture Address Unit 及 24 個 Raster Operations Unit , 核心時脈為 575MHz ,但 Srtream Processor 部份時脈則以 1.35GHz 運作,其運算效能可高達 520 gigaflops 。

GeForce 8800G TX 採用 G80P355 公版設計,長度為 10.5 吋,並非普通機箱所能置入。由於 GeForce 8800GTX 最高功耗約達 185W ,由於 PCI-E 插槽只能提供約 75W ,而一線 PCI-Express 6pins 亦只能提供額外的 75W ,因此, Geforce 8800GTX 繪圖卡需要採用兩組 PCI-Express 6-pin 外接電源,據 NVIDIA 表示,建議 GeForce 8800GTX 單卡用家採用 450W 電源供應器,而 12V 則需要至少 30A 的輸出,如果用家只插一個電池接口, GeForce 8800GTX 只會運作於低效能模式。

此外,在 G80P355 公版上可以發現擁有兩個 MIO 接口,不過 NVIDIA 暫時並沒有公開其用途,僅指出將留待日後使用,因此,現時 GeForce 8800GTX 只需要接上其中一組 MIO 接口即可。

顯示輸出方面, NVIDIA G80 繪圖核心把顯示卡輸出部份分割至繪圖核心之外,故此在 G80P355 PCB 的左方多少了一顆 NVIO-1 晶片,主要負責所有模擬和數碼的輸出,據繪圖業者透露,未來 NVIDIA 將會推出具 HDMI 輸出及 VideoPort 的支援的 NVIO 晶片,追加新繪圖輸出接口並不需要更改繪圖核心設計。



全新G80繪圖核心把輸出部份抽離,並外置一顆影像輸出晶片,命名為NVIO-1

內建768MB記憶體 384-Bit記憶體頻寬

G80 繪圖核心最高支援 384-Bit 記憶體頻寬,因此, GeForce 8800GTX 擁有 12 顆 Samsung K4J52324DE-BJ 1A -1ns GDDR3 16M x 32 記憶體顆粒,共計有 768MB 記憶體容量,預設時脈為 1.8GHz DDR 。

而在散熱器部份, GeForce 8800G TX 採用 TM61 公版散熱器,由 CoolerMaster 代工,採用 Dual Slot 設計,散熱器銅底鋁鰭片,並擁有一支 Heatpipe 把核心的熱力加速傳導至散熱鰭片之上, 8C M 風扇最高速度為 2500rpm ,風量 11.520C FM 、最高聲噪為 35.5 分貝。

GeForce 8800GTX 官方定價為 599 美元,定位將取代現時 GeForce 7950GX2 。


圖為G80-300繪圖核心並擁有IHS保護,G80-300最高支援384Bit 記憶體配置。

[ 本帖最後由 天一 於 2006-12-21 09:06 AM 編輯 ]
高性價比之選 -- NVIDIA GeForce 8800GTS


圖上為Albatron GeForce 8800GTS實物

除了 GeForce 8800GTX 之外, NVIDIA 亦同時發佈了基於 G80 繪圖核心的平價版本 GeForce 8800GTS ,雖然核心完全相同,但時脈和規格均比 GTX 版本為低。

GeForce 8800G TS 繪圖核心編號為 G80-100 ,核心被屏敝了兩組 Stream Processor Unit ,因此只擁有 96 個、 48 個 Texture Filtering Unit 、 24 個 Textyre Address Unit 、 20 個 Raster Operation Unit ,核心時亦被降低至 500M Hz ,而 Stream Processor 部份時脈則以 1.2G Hz 運作。

此外, GTX 版本擁有 2 組 MIO 接口,但 GTS 版本則僅維持 1 組 MIO 接口設計,究竟 GTX 版本的雙 MIO 設計是為了什麼用途而被留用?目前仍不得而知。

GeForce 8800GTS 最高功耗壓低至 150W ,剛好符合 PCI-E 插槽 + 一組 PCI-Express 6pnis 接口的標準,無需使用兩組 2 組 PCI-E 外接電源。據 NVIDIA 表示,建議 GeFoprce 8800GTS 單卡用家採用 400W 電源供應器,其 12V 至少需要有 26A 輸出。

GeForce 8800GTS 採用 G80P356 公版設計,長度大幅減少至 9 吋,因此大部份 ATX 機箱用家均可正常安裝此卡。



內建640MB記憶體 320-Bit記憶體介面

除了時脈和規格被刪減,記憶體配置亦有所不同, GeForce 8800GTS 只支援 320Bit 記憶體介面,因此繪圖核心只配置了十顆 Samsung K4J52324DE-BC12 ,容量為 640M B ,預設時脈為 1.6G Hz DDR 。GeForce 8800GTS的G80P356公板有兩顆記憶體顆粒被焊空的位置,代表G80P356已預留384Bit記憶體介面的走線。

散熱器方面, GeForce 8800GTS 採用 TM63 公版散熱器,散熱器設計和 GeForce 8800G TX 類似但長度較為短,同樣採用 Dual Slot 設計、散熱器銅底鋁鰭片,並擁有一支 Heatpipe 把核心的熱力加速傳導至散熱鰭片之上, 8CM 風扇最高速度為 2500rpm ,風量 11.520C FM 、最高聲噪為 35.5 分貝。
GeForce 8800GTS 官方定價為 449 美元,定位將取代現時 GeForce 7900GTX 。


圖為G80-100繪圖核心並擁有IHS保護,G80-100最高支援320Bit 記憶體配置。



[ 本帖最後由 天一 於 2006-12-21 09:13 AM 編輯 ]

測試平台︰
Intel Core 2 ExtremeQX6700 (2.66GHz/4MB L2 x 2/1066MHz FSB)
ECS PN2 SLI 2+ (nForce 680i C55+MCP65)
Corsair DDR2-800 1GB x2 (CL 5-5-5-15)
MSI GeForce 8800GTX
Albatron GeForce 8800GTS
MSI Radeon X1950XTX & CrossFire Edition
MSI GeForce 7900GTX
Maxtor Diamond Plus 9 160GB 7,200 ATA133
Delta ServerPower 550W x 2
Windows XP Professional SP2
NVIDIA Forceware Driver 96.67
ATI Catalyst Driver 6.10
NVIDIA nForce Driver 9.59



效能測試︰GeForce 8800 Family VS 7900GTX & 1950XTX




SLI測試︰




後 記︰

NVIDIA 全新 G80 繪圖核心在規格上提升至支援 DirectX 10 ,同時憑著新一代的 Unified Shader 架構及 128 個 Stream Processor ,令效能進一步拋離上代產品,更重要的是, NVIDIA 率先 搶進 DirectX 10 世代,讓 與微軟一直維繫緊密合作關係的 ATI ,寄望在 DirectX 10 戰場上拿下首勝的希望落空。

經過詳細測試後, GeForce 8800G TX 效能平均約較上代產品高出 50-60% ,而 GeForce 8800G TS 亦有 35-40% ,效能令人滿意,儘管在成本上 GeForce 8800G TX 及 GTS 均比上代產品高昂,但售價仍保持合理水平, GeForce 8800G TX 約為 $599 美元, GeForce 8800G TS 為 $449 美元。

其中以 GeForce 8800GTS 性價比較高,兩者效能相差約 15-20% ,但 GTS 售價卻比 GTX 版便宜 33.4% ,加上 GeForce 8800GTS 對電源的要求較低,對機箱的兼容性亦較大,預期 GeForce 8800G TS 將會較受市場歡迎,成為即將來臨的聖誕黃金檔期中最熱賣的高階繪圖卡產品。

另一方面,再看對手 ATI 最新桌面繪圖產品最新規劃,將至 2007 年第一季才能祭出支援 DirectX 10 及 Unified Shader 架構的 R600 繪圖核心,在此之前,採用上代 R580+ 繪圖核心、只支援 DirectX 9.0C 的 Radeon X1950XT 根本無力反擊 G80 大舉入侵,減價迎戰恐將是唯一出路。

不過值得注意的是,亦有部份繪圖卡業者指出,由於 Direct X10 只有 Microsoft Vista 才能支援, Windows XP 均無法升級至 Direct X10 ,加上微軟曾表示 Vista 甫上市僅會附上 DirectX 9 程式序,之後才會透過 Windows Update 讓用戶升級至 DirectX 10 , DirectX 10 普及速度未明,加上G80僅為高階產品,佔市場比例不高,暫時來看,技術領先象徵性意義較大, ATI 仍有時間機會扳回一城。

PS:资料来源 *電腦領域 HKEPC Hardware*

[ 本帖最後由 天一 於 2006-12-21 09:30 AM 編輯 ]
very good, thank for information
返回列表