Nvidia обяви своята програма за ускорение H100 за центрове за данни и HPC. Този PCIe 5.0 GPU се произвежда на TSMC 4N възел и разполага с HBM3 памет с пропускателна способност до 3TB/s. Nvidia H100 е наследник на текущия графичен процесор A100.
Графичен процесор Nvidia H100 Той е базиран на Hopper, GPU архитектура, насочена към центрове за данни, HPC и ампер Проследяване в тази област. H100 се състои от 80 милиарда транзистора и се произвежда по TSMC 4N процес. Това е модифицирана версия на процеса TSMC N4, особено за Nvidia. В Nvidia H100 Отново монолитен чип, точно като A100. Първоначално се говореше, че Nvidia ще предложи GPU център за данни с многочипов дизайн, състоящ се от Умира† AMD направи точно това миналата година със серията Instinct MI200.
Настоящият A100 се произвежда на модифицирана версия на 7 nm TSMC процес и се състои от 54,2 милиарда транзистора. Nvidia твърди, че H100 осигурява до три пъти повече изчислителна мощност от A100 в fp16, tf32 и fp64 и шест пъти повече в fp8. Графичният процесор H100 е с размер 814 mm². Това е малко по-малко от сегашния GA100, който има кой – кой– Площ от 826 mm².
Nvidia H100 SXM5 (вляво) и H100 PCIe
HBM3 за SXM5, HBM2e за PCIe вариант
Nvidia предлага два варианта на H100. Изглежда, че фокусът е върху варианта SXM5, който има 128 мултипроцесорен поток За общо 16896 fp32 CUDA ядра. Тази карта получава 50MB L2 кеш и 80GB HBM3 памет на 5120-битовата шина на паметта, за максимална честотна лента на паметта от около 3TB/s. Тази карта получава 50MB L2 кеш и 700W tdp. Потребителите могат да комбинират множество графични процесори H100 SXM с NVLink взаимно свързване на Nvidia. Според Nvidia, 4G предлага честотна лента до 900 Gb/s.
Ще има и PCIe 5.0 x16 вариант за по-стандартни сървъри. Този модел получава 114 текстови съобщения и 14 592 CUDA ядра. Освен това, PCIe вариантът получава 40MB L2 кеш, точно като текущия A100. Забележително е, че вариантът PCIe все още има по-бавна HBM2e памет, според Публикувано от бялата книга на Nvidia Hopper във вторник† При 80 GB количеството е равно на модела SXM. PCIe вариантът получава tdp от 350W.
Нови характеристики на бункера: адаптерно задвижване, набор от инструкции DPX
Самата архитектура на Hopper също е адаптирана в сравнение с Ampere. Hopper и H100 разполагат с нов механизъм за превключване, който комбинира нов тип Tensor ядро със софтуерен пакет за обработка на формати fp8 и fp16 за обучение на комутационната мрежа. Това е един вид модел на дълбоко обучение.
За облачни изчисления, H100 може да бъде разделен на до седем случаи† Ампер вече можеше да направи това, но с Хопър те бяха напълно изолирани един от друг. В допълнение, Hopper получава нов набор от инструкции DPX, посветен на динамичното програмиране. Nvidia твърди, че H100 се представя до седем пъти по-добре от A100 без DPX в този случай на употреба.
DGX системи и SuperPods
Nvidia също така предлага системата DGX H100 с осем графични процесора H100. Със своите осем графични процесора H100, тази система разполага с 640GB HBM3 памет с обща честотна лента от 24TB/s. Потребителите могат да интегрират до 32 DGX системи чрез NVLink връзки. Nvidia го нарича DGX SuperPod. Такава система с 32 възела трябва да предлага огромна изчислителна мощност, твърди Nvidia. Това показва изчислителна мощност на fp8. Самата компания изгражда суперкомпютър EOS, състоящ се от 18 DGX SuperPods с общо 4608 H100 GPU.
Nvidia все още не е обявила цената на графичния процесор H100. Все още не е ясно каква ще бъде цената на системите H100 DGX или DGX H100 SuperPods. Hopper също не се очаква да се използва в потребителски графични процесори. По-късно тази година беше съобщено, че Nvidia ще представи своя собствена архитектура Lovelace за новите GeForce RTX графични карти.
Nvidia Hopper заедно с предишни графични процесори на Nvidia HPC | |||
---|---|---|---|
сграда | Хубер | ампер | Волта |
графичен процесор | H100, TSMC 4 nm | GA100, TSMC 7 nm | GV100, TSMC 12 nm |
повърхностна матрица | 814 mm² | 826 mm² | 815 mm² |
транзистори | 80 милиарда | 54 милиарда | 21,1 милиарда |
CUDA ядра (fp32) | SXM: 16896 PCIe слот: 14.592 |
6912 | 5120 |
тензорни ядра | SXM: 528 PCIe: 456 |
432 | 640 |
памет | SXM: 80 GB HBM3 PCIe: 80 GB HBM2e |
40 GB / 80 GB HBM2e | 16 GB / 32 GB HBM2.0 |
FP32 . конвейер | SXM: 60 флопа PCIe: 48Tflops |
19,5 флопа | 15,7 флопа |
FP64. Вектор | SXM: 30 флопа PCIe: 24Tflops |
9,7 флопа | 7,8 флопа |
FP16 Обтегач | SXM: 1000 Tflops PCIe: 800Tflops |
312 флопа | 125 Flups |
TF32 тензор | SXM: 500 flups PCIe: 400 Tflops |
156 флоп | Недостъпно |
FP64 Обтегач | SXM: 60 флопа PCIe: 48Tflops |
19,5 флопа | Недостъпно |
INT8.двигател | SXM: 2000 пика PCIe: 1600 бр |
624 върха | Недостъпно |
Tdp | до 700 вата | до 400 вата | до 300 вата |
форм фактор | SXM5 / PCIe 5.0 | SXM4 / PCIe 4.0 | SXM2 / PCIe 3.0 |
„Удобен за хипстър органайзер. Мислител. Комуникатор. Печелен с награди уеб нинджа. Типичен геймър. Зъл гуру на зомбитата. Фен на бирата.“