Úvod
Huawei v roce 2019 uvedla svůj první výkonný AI procesor Ascend 910, aby konkurovala dominanci Nvidia v oblasti akcelerátorů pro umělou inteligenci. Následně představila vylepšený model Ascend 910B, zatímco Nvidia mezitím vyvinula novou generaci GPU architektury Blackwell – konkrétně akcelerátory Nvidia B100 a B200. V tomto reportu detailně porovnáme tyto čipy z technického i strategického hlediska, včetně jejich výpočetního výkonu, architektury, energetické účinnosti, výrobní technologie, ceny a dostupnosti, a také širších geopolitických souvislostí. Zvláštní důraz je kladen na význam těchto čipů pro trénování a inferenci AI modelů v datacentrech a jejich integraci do cloudových platforem v Číně i ve světě.
Výpočetní výkon (FLOPS a specifický AI výkon)
Huawei Ascend 910 byl při uvedení označován za „nejvýkonnější AI procesor světa“ s poloviční přesností (FP16) až 256 TFLOPS a s výpočetním výkonem pro 8bitové celočíselné operace (INT8) 512 TOPS. Toho dosahuje díky vestavěným tenzorovým jádrům Da Vinci. Pro srovnání, tehdejší Nvidia V100 (2017) měla cca 125 TFLOPS FP16 s využitím tensor cores. V praxi tedy Ascend 910 zhruba dvojnásobně překonal předchozí generaci GPU od Nvidie. Jeho nástupce Ascend 910B má obdobný nominální výkon – také 256 TFLOPS FP16 – avšak díky vylepšením architektury a vyšším taktům se uvádí, že dosahuje úrovně srovnatelné s Nvidia A100 akcelerátorem. (Nvidia A100 dosahuje ~19,5 TFLOPS ve standardní jednoduché přesnosti FP32 a až ~312 TFLOPS ve speciálním FP16 módu tensorových jader při 400 W TDP.) Čip Ascend 910B tedy v hrubém výpočetním výkonu dohání Nvidii Ampere/A100 generaci – čínské zdroje uvádějí, že jeho schopnosti jsou „v podstatě na úrovni A100“. Podle interních testů je varianta Ascend 910 Pro B ještě asi o 10 % výkonnější (~280 TFLOPS FP16), což však stále znamená ~18 % nižší výkon než A100. Pro méně přesné formáty (např. FP8) není u Ascendu 910/910B veřejně uváděn výkon – tyto čipy primárně podporují FP32/FP16 a INT8 (případně INT4/INT16) v rámci Da Vinci jader.
Naproti tomu Nvidia u nové řady Blackwell posunula absolutní výkon na zcela jinou úroveň. Vrcholný model Nvidia B200 (dvoudie výpočetní modul) dosahuje až okolo 2250 TFLOPS (tj. 2,25 PFLOPS) v aritmetice FP16 (dense, bez sparsity). To je více než 2× výkon předchozího Hopper/H100 (990 TFLOPS FP16) a přibližně 7× výkon oproti Ascend 910/910B. Pro INT8/FP8 operace má B200 teoretický peak ~4500 TOPS. Méně výkonný model Nvidia B100 je koncipován pro nižší spotřebu (700 W) a nabízí asi 78 % výkonu B200 – stále tedy zhruba 1750 TFLOPS FP16 a kolem 3500 TOPS INT8/FP8. Blackwell rovněž přidává podporu ještě nižší přesnosti FP4, kde dosahuje extrémních hodnot (B200 má až ~20 PFLOPS s řídkými maticemi ve FP4), což je zaměřeno na akceleraci inferenčních úloh. V následující tabulce jsou shrnuty základní parametry:
Čip | Proces (výrobce) | FP16 výkon | INT8/FP8 výkon | Paměť (HBM) | TDP |
---|---|---|---|---|---|
Huawei Ascend 910 | 7 nm (TSMC N7+) | 256 TFLOPS FP16 | 512 TOPS INT8 | 32 GB HBM2 | 310 W |
Huawei Ascend 910B | ~7 nm (SMIC N+1) | ~256 TFLOPS FP16 | ~512 TOPS INT8 | 32 GB HBM2 | 300–310 W |
Nvidia Blackwell B100 | 4 nm (TSMC 4NP) | ~1750 TFLOPS FP16 | ~3500 TOPS FP8 | 192 GB HBM3E | 700 W |
Nvidia Blackwell B200 | 4 nm (TSMC 4NP) | 2250 TFLOPS FP16 | 4500 TOPS FP8 | 192 GB HBM3E | 1000 W |
Poznámky: Ascend 910B má podobné specifikace jako původní 910, vylepšení spočívají hlavně ve vyšším taktu a optimalizacích – proto uvádíme stejné nominální čísla výkonu. B100 a B200 sdílejí stejnou duální-die architekturu a kapacitu paměti, liší se však limitem TDP a tedy dosažitelným taktem a výkonem (B100 je energeticky úspornější varianta). Nvidia udává výkony pro dense (neosparsifikované) operace; se sparsitou 2:1 může Blackwell dosahovat dvojnásobku při FP16/8.
Architektura a podpora AI frameworků
Huawei Ascend 910 je postaven na vlastní architektuře Da Vinci. Jde o vysoce integrovaný SoC s 32 Da Vinci jádry specializovanými na maticové výpočty pro AI. Kromě nich čip integruje i obecnější výpočetní prvky (ARM jádra CPU pro plánování, jednotky DVPP pro zpracování videa) a řadiče pamětí. Ascend 910 využívá vícečipový modul: hlavní výpočetní matrici doplňují čtyři balíčky HBM2 pamětí a samostatný čip Nimbus V3 pro vstupně/výstupní operace. Celý modul má impozantní rozměry (~1028 mm² se započtením dummy křemíků pro mechanickou stabilitu). Vnitřní propojení jader je řešeno jako mesh síť (6 řad × 4 sloupce) a čip obsahuje i hardwarové akcelerátory pro dekódování videa (128 kanálů 4K) a vysokorychlostní rozhraní pro propojování více čipů. Pro škálování více Ascendů dohromady Huawei vyvinul sběrnici HCCS a využívá i standard PCIe 4.0 a 2× 100Gb RoCE v balení – to umožňuje flexibilní zapojení do clusterů podobně jako u Nvidia NVLink.
Architektura Ascend 910B vychází z 910, hlavní rozdíl spočívá v přechodu na jiný výrobní proces (viz další sekce) a některých optimalizacích. Huawei oficiálně 910B téměř neavizoval, ale dokumentace naznačuje drobné změny v ovladačích a firmware. Počet jader Da Vinci i celková konfigurace pamětí zůstává stejná. Některé zdroje zmiňují varianty 910C a 910D – ty přidávají pokročilejší čipletové propojování více výpočetních matr ic a další optimalizace pro specifické AI úlohy (např. modely Transformer a Mixture-of-Experts). Například Ascend 910C údajně spojuje dva 910B čipy dohromady moderní balicí technologií (MCM), čímž dosahuje zvýšení výkonu až na ~320 TFLOPS FP1. Obecně lze říci, že Huawei se u architektury Ascend soustředí na škálování jednoho typu univerzálního jádra (Da Vinci) od malých akcelerátorů (Ascend 310 pro edge) až po velké čipy (910) a využívá specializované instrukce pro AI výpočty. Podporuje datové typy FP32, FP16, INT8, INT16 a INT4. Nižší formáty (FP8, BF16) začala Huawei přidávat v novějších generacích (910C/D, 920) s cílem zlepšit výkon na trénování velkých jazykových modelů.
Nvidia Blackwell (B100/B200) představuje zcela novou architekturu GPU navazující na Hopper. Klíčovou inovací je, že Nvidia poprvé přešla na vícedlaždicový design u high-end GPU: modul B200 obsahuje dvě výpočetní matrice (dies) propojené na substrátu. Nvidia označuje toto propojení jako NV-HBI (High Bandwidth Interface) s propustností 10 TB/s mezi matricemi. Tato datová propustnost je extrémně vysoká a umožňuje, aby dvojice matr ic fungovala takřka jako jeden logický GPU (plná koherence a sjednocené paměťové prostory). Každá matrice v Blackwellu obsahuje odhadem ~104 miliard tranzistorů a má přibližně 800 mm² (na 4nm procesu). B200 tak celkově disponuje ~208 miliardami tranzistorů, přičemž zhruba 528 tensor core jednotek obstarává maticové operace (pro srovnání: Nvidia H100 má 80 mld. tranzistorů a 432 tensor jader). K dalším novinkám Blackwell architektury patří druhá generace Transformer Engine – hardware modul optimalizující výpočty specificky pro Transformerové modely, zavedený už u H100, nyní vylepšený pro ještě vyšší účinnost v nižší přesnosti (FP8/FP4). B200/B100 také disponují větší lokální pamětí: je osazeno 8 stacků pamětí HBM3E (každý 24 GB), tedy celkem 192 GB s propustností až 8 TB/s. To je 2,4× více než u Nvidia H100 a několikanásobně více oproti 32GB HBM2 u Ascend 910. Takto obrovská kapacita a propustnost paměti umožňuje Blackwellům zpracovávat obří modely (Nvidia uvádí škálování až k modelům o 10 bilionech parametrů) a dále zlepšuje výkon u modelů typu Mixture-of-Experts, které potřebují rychle přepínat mezi mnoha částmi modelu v paměti.
Podpora AI frameworků a software stack: Zásadní odlišností je ekosystém. Nvidia má dlouholetý náskok díky platformě CUDA, knihovnám cuDNN, TensorRT a široké podpoře v rámci frameworků jako PyTorch a TensorFlow. Blackwell čipy pokračují v tomto směru – vývojáři mohou využít osvědčené nástroje, aktualizované pro nové datové typy (FP8, FP4) a funkce architektury. Navíc Nvidia umožňuje tzv. MIG (Multi-Instance GPU), tedy rozdělení jednoho fyzického GPU na více logických částí pro efektivní využití v inferenci, což Blackwell rovněž podporuje (vylepšeno oproti A100/H100). Oproti tomu Huawei buduje svůj vlastní stack: nízkoúrovňovou vrstvu CANN (Compute Architecture for Neural Networks) a na ní navazující framework MindSpore, který je koncepčně obdobou PyTorch (Huawei jej v roce 2020 uvolnila jako open source). MindSpore 2.x dnes podporuje i moderní modely včetně Mixture-of-Experts. Huawei se snaží usnadnit portaci – poskytuje nástroje pro automatickou konverzi modelů či dokonce „jedno-klikové“ přepsání CUDA kernelů do CANN. Nicméně ekosystém Ascend stále nedosahuje zralosti a šíře podpory jako CUDA. Mnoho populárních modelů a knihoven muselo být ručně optimalizováno pro Ascend, což zpočátku omezovalo využití čipů 910/910B na projekty přímo spolupracující s Huawei. Postupně se ale situace lepší – například PyTorch dnes lze provozovat nad Ascend přes plugin (ATL adapter) a Huawei Atlas systém podporuje i standard ONNX modely. Přesto odborníci poukazují, že omezená softwarová kompatibilita je jednou z překážek širšího nasazení Ascendu. Nvidia Blackwell tedy v praxi těží z mnohem vyspělejšího softwarového prostředí, zatímco Huawei musí budovat „ekosystém od nuly“. Čínské firmy (např. iFlyTek) proto ve spolupráci s Huawei intenzivně optimalizují klíčové algoritmy a vytvářejí optimalizované knihovny operací přímo pro Ascend, aby jeho výkon plně zužitkovaly.
Energetická účinnost a chlazení
Výpočetní výkon sám o sobě je jen jedna metrika – neméně důležitá je efektivita, tedy kolik wattů příkonu je potřeba na dosažení daného výkonu. Ascend 910 byl vyráběn 7nm EUV procesem a Huawei uváděla max. spotřebu 310 W (původně plánováno 350 W, ale finální křemík byl úspornější). S výkonem 256 TFLOPS FP16 to vychází kolem 0,83 TFLOPS/W. Pro srovnání, Nvidia A100 (7nm) má ~312 TFLOPS FP16 při 400 W, tj. ~0,78 TFLOPS/W – Ascend 910 byl tedy mírně efektivnější než Ampere generace Nvidie. U Ascend 910B nejsou detailní údaje veřejné, ale díky ladění výroby se pravděpodobně podařilo zachovat výkon 256 TFLOPS při podobné či nižší spotřebě (~300 W). Některé zprávy však zmiňují, že Huawei uvažovala i o zvýšení TDP k 400 W, aby mohla taktech dotáhnout plně výkon A100 (~312 TFLOPS). To by ovšem zkomplikovalo chlazení. V praxi Huawei zvolila konzervativnější 300 W limit pro datacentrové nasazení modelu 910B (např. akcelerátory Atlas 300T). Takový modul lze uchladit vzduchem obdobně jako GPU karty – vyžaduje masivní pasivní chladič nebo vodní blok, ale existují servery Huawei Atlas s 910/910B chlazené vzduchem v 2U šasi.
Nvidia Blackwell B100/B200 posouvá spotřebu na nové maximum. Flagship B200 má TDP až 1000 W. To je bezprecedentní hodnota pro jeden akcelerátor – pro srovnání, Nvidia H100 SXM měl 700 W, A100 400 W. B200 modul kvůli tomu vyžaduje pokročilé chlazení, typicky přímé kapalinové chlazení (liquid cooling coldplate) v serverech. Odlehčený B100 cílí na standardnější 700 W limit, aby byl kompatibilní se stávajícími šasi HGX s chlazením pro H100. I tak je 700 W značné teplo – obvykle se využívá kombinace vysoce výkonných ventilátorů a chladičů, případně tekuté chlazení. Efektivita Blackwellu ale přes nárůst TDP významně vzrostla: B200 s 2,25 PFLOPS FP16 a 1000 W má ~2,25 TFLOPS/W, což je ~1,6× lepší poměr než H100 (~1,4 TFLOPS/W) a ~3× lepší než Ascend 910. Varianta B100 díky nižším taktům dokonce dosahuje ~2,5 TFLOPS/W (1750 TFLOPS / 700 W). To značí pokrok v architektonické efektivitě – Nvidia sice zůstala na 4nm procesu jako u H100, ale vylepšila vnitřní datové toky a zvýšila paralelismus, takže více výpočtů proběhne za každý takt a watt. Huawei u Ascend generace 910 neměla možnost tak dramaticky navýšit počet tranzistorů (omezení dané 7nm procesem a zvolenou architekturou) ani použít vyšší TDP, takže v absolutním výkonu zaostává, byť v efektivitě na watt byla ve své době konkurenceschopná.
Z hlediska chlazení tedy: Ascend 910/910B (300–310 W) jsou navrženy tak, aby se daly uchladit vzduchem nebo jednodušším vodním okruhem – to je výhoda v jednodušší integraci do stávajících serverů. Blackwell B200 (1000 W) naproti tomu prakticky vyžaduje vodní chlazení a speciální high-density servery (např. Nvidia HGX B200 platforma) s robustním napájením a odvodem tepla. To může mírně omezit flexibilitu nasazení B200, nicméně cílové použití jsou špičkové datacentrové clustery, kde se s vodním chlazením počítá. B100 s 700 W představuje kompromis – vejde se do existujících řešení (např. 8-GPU uzlů s chladiči a ventilátory), a přitom nabízí výrazně vyšší výkon než předchozí generace GPU. Z hlediska Watt/FLOP je tedy Blackwell aktuálně nejúčinnější AI akcelerátor, zatímco Huawei bude muset s novými generacemi (910C/D, 920) přejít na pokročilejší procesy nebo vícečipové moduly, aby zlepšila výkon i efektivitu.
Výrobní technologie a vliv sankcí
Výrobní technologie je kritickým faktorem, který zásadně ovlivňuje výše zmíněný výkon i spotřebu. Ascend 910 (2019) byl vyráběn u TSMC na 7nm+ EUV procesu. Bylo to možné těsně předtím, než se Huawei dostala na černou listinu USA (květen 2019) – TSMC ještě vyrobila počáteční série. Po zpřísnění sankcí v roce 2020 už TSMC nesměla dodávat Huawei pokročilé čipy. Huawei proto musela hledat alternativy. Ascend 910B je zřejmě prvním výsledkem této snahy: podle dostupných informací byl přenesen na domácí čínský proces u SMIC (Shanghai Manufacturing International Corp). SMIC vyvinula tzv. 7nm-class proces N+1 (a později N+2) pomocí DUV litografie, což umožnilo vyrábět čipy srovnatelné hustoty tranzistorů s 7nm, ale s obtížemi a nízkými výtěžnostmi. Huawei tak začala produkovat Ascend 910B a 910C u SMIC právě na těchto procesech. To sice zajistilo domácí výrobu (nezávislou na TSMC), ale přineslo technické potíže – zprávy hovoří o velmi špatném výtěžku: údajně až 25 % čipů selhávalo při finalizaci pouzdření s HBM pamětí. Jiný zdroj dokonce uváděl, že z 5 vyrobených kusů 910B jsou 4 defektní (což by implikovalo jen ~20% výtěžnost). To Huawei vedlo k mimořádným krokům – dle analýzy CSIS měla firma přes prostředníky získat až 2 miliony polotovarů 910B přímo od TSMC (přes nastrčené společnosti), než TSMC podvod odhalila a zastavila dodávky. Tyto dovezené „chiplety“ mohla Huawei použít k výrobě modulů s vyšší spolehlivostí než čistě domácí produkcí. Zároveň Huawei podnikla rozsáhlé zásoby komponent – např. nakoupila velké objemy HBM pamětí v období, než USA začaly omezovat i vývoz pokročilých pamětí do Číny. Navzdory těmto obtížím však Huawei kontinuálně pracuje na vylepšení domácí výroby: Ascend 910C (SMIC N+2) údajně dosáhl ~40% výtěžnosti a blíží se ekonomické rentabilitě. Dále se spekuluje o Ascend 920 na 5nm-class procesu (možná SMIC N+2 vylepšený, nebo pokud by Čína zprovoznila vlastní EUV litografii). Celkově vzato, americké sankce výrazně zpomalily Huawei přístup k nejpokročilejším uzlům (5nm, 3nm). Aktuálně je tak „uvíznuta“ na úrovni ~7nm do té doby, než se podaří doma vyvinout 5nm výrobu (SMIC ji plánuje nejdříve ~2025–26). To znamená, že Ascend 910B/C má tranzistorovou hustotu i frekvence omezené ve srovnání s Nvidia, která své Blackwell čipy produkuje u TSMC.
Nvidia Blackwell (B100/B200) je vyráběna TSMC, ovšem poněkud překvapivě ne 3nm, ale vylepšeným 4N procesem (4NP). Jde o pokračování 5nm technologie, optimalizované pro vysoký výkon. Nvidia tak kvůli obřím rozměrům čipů nevyužila 3nm (který by nabídl ~1,7× hustotu, ale riskantní výtěžnost). Místo toho nasadila multi-die architekturu na osvědčeném 4N. Výsledkem je, že Blackwell dosahuje špičkových parametrů i bez nejmodernější litografie – avšak za cenu oné vysoké spotřeby. TSMC vyrábí tyto čipy bez omezení pro Nvidia, ovšem exportní restrikce USA se týkají hotových produktů směřujících do Číny. Stejně jako u předchozích A100/H100 musí Nvidia nabízet pro čínský trh omezené verze (např. A800, H800), které splňují limitace v propustnosti interconnectu a výpočetní rychlosti, aby nedosahovaly „vojensky významných“ metrik stanovených v nařízeních USA. Lze očekávat, že pro Blackwell budou obdobně existovat varianty s redukovaným výkonem určené do Číny (neoficiálně zvané třeba B800). Nicméně, americké firmy jako Nvidia, AMD a další jsou svázány regulacemi – nemohou volně prodávat nejvyšší modely do Číny. Huawei (a další čínští hráči) tak mají motivaci i podporu k vývoji domácích alternativ, byť za cenu vyšší výrobní náročnosti. Čína masivně investuje do vlastního polovodičového řetězce, od designu (Huawei Hisilicon, Alibaba T-Head, Tencent, Cambricon) až po výrobu (SMIC, na obzoru vlastní EUV). Současná realita je taková, že Nvidia má náskok technologicky (~2 generace procesu), ale její špičkové produkty jsou pro čínské zákazníky nedostupné nebo omezované. Huawei díky přechodu na SMIC udržela kontinuitu produktové řady Ascend, ovšem musela akceptovat dočasné zaostávání v použité technologii a z toho plynoucí nižší výkon.
Cena, dostupnost a nasazení v AI systémech
Cena a dostupnost těchto čipů se výrazně liší dle trhu. Nvidia B100/B200 oficiálně míří do prémiových akcelerátorových karet a serverů (HGX, DGX) – jednotková cena jednoho modulu se pohybuje v desítkách tisíc dolarů (dle předchozí generace lze odhadovat >30 000 USD za B100). Koncová řešení jako superpočítačové uzly s 8× B200 mohou stát stovky tisíc dolarů. Naproti tomu Huawei své Ascend čipy nenabízí volně na mezinárodním trhu; dodává je primárně partnerům v Číně a integruje do vlastních řešení Atlas a Cloud. Přesná cena Ascend 910/910B není veřejná – odhady však naznačují, že Huawei je schopna je nabídnout levněji než importované Nvidia A/H100 (které jsou navíc v Číně nedostatkovým zbožím kvůli kvótám). Podle analýzy TrendForce nové řešení Huawei Ascend + DeepSeek může přinést až 60–70% úsporu nákladů oproti ekvivalentnímu řešení s Nvidia H100. Například kompletní „all-in-one“ systém s Ascend 910B/910C pro velké modely (o řádu stovek miliard parametrů) stojí okolo 3–10 milionů RMB, zatímco srovnatelný systém s Nvidia H100 by vyšel na ~20 milionů RMB. Z toho je patrné, že Huawei konkuruje cenou – nabízí ~60% výkonu H100 za výrazně nižší cenu (a navíc dostupnost bez exportních omezení). Nicméně je nutné dodat, že Huawei může čipy dodávat jen v omezeném množství (daném výrobní kapacitou SMIC a vlastními zásobami). Např. Baidu si v roce 2023 objednalo 1600 kusů Ascend 910B (pro sestavení 200 serverů)reuters.com – to ukazuje ochotu čínských firem investovat do domácích čipů. Tyto dodávky ale zřejmě pokrývají jen zlomek poptávky čínského trhu po AI akcelerátorech. Nvidia i přes restrikce prodala do Číny tisíce kusů A100/H100 (v podobě A800/H800), byť s omezeními.
Z hlediska nasazení ve velkých AI systémech můžeme sledovat dva paralelní proudy: globální a čínský. Ve světě dominují Nvidia GPU v clusterech pro trénování největších modelů – například Meta, OpenAI, Microsoft, Google – ti všichni investují do tisíců GPU Nvidia (H100 a brzy Blackwell) v datacentrech. Nvidia právě představila platformu DGX GH200/GB200 SuperPod, kde desítky až stovky modulů Grace-Blackwell společně tvoří jednotný výpočetní systém o výkonu exaflopů. Jeden rackový systém Nvidia GB200 NVL72 spojuje 72 Blackwell GPU a 36 serverových CPU Grace a disponuje až 1,4 exaFLOPs AI výkonu a 30 TB paměti jako jednotný zdroj. Tyto špičkové technologie budou v roce 2024–2025 páteří AI infrastruktury například u AWS, Google, Microsoft, Oracle Cloud, kteří již ohlásili plány nasadit Blackwell v rámci svých cloudových služeb. Pro jakékoli projekty vyžadující maximální výkon a nejmodernější modely (GPT-4 a dále) tak jsou Blackwell a navazující generace (či specializované Google TPU) hlavní volbou.
V Číně však Nvidia nemůže dodávat H100/B100 ve standardní podobě, a proto velké internetové firmy hledají alternativy. Baidu již uvedené servery s Ascend 910B hodlá využít pro trénování i inferenci svých modelů a cloudových služeb. Huawei Cloud (Huawei vlastní veřejný cloud) zpřístupnil výpočetní kapacitu Ascend (910) pro zákazníky a společně se startupy jako SiliconFlow pracuje na optimalizaci celého stacku tak, aby na Ascend běžely populární velké modely srovnatelně dobře jako na GPU. Průlomem bylo oznámení, že modely DeepSeek (velké jazykové modely vyvinuté v Číně jako alternativa GPT-4) byly nasazeny na clusterech s Ascend 910 a dosahují obdobného výkonu jako na špičkovém zahraničním hardware. To analytici označili za „mezník“, který ukazuje, že čínské „dostatečně dobré“ čipy mohou zvládnout i nejnáročnější LLM úlohy. Kromě Huawei Ascend se do podpory domácích modelů zapojují i další čínští hráči – např. firmy Moore Threads a Hygon oznámily, že jejich GPU akcelerátory budou rovněž podporovat modely DeepSeek. Cloudové divize Alibaba, Tencent a Baidu deklarovaly, že zpřístupní API k DeepSeek modelům ve svých cloudech, přičemž na backendu mohou využívat mix dostupného hardware (část možná ještě Nvidia A800/H800, část již Ascend nebo jiné domácí čipy, podle toho co je k dispozici). Dále zde existují specializované superpočítačové instalace: například státem podporovaný Peng Cheng Lab buduje „Cloud Brain“ superpočítače založené čistě na Huawei Ascend – už Cloud Brain II (2020) využíval 1024 procesorů Ascend 910 (Atlas 900) a chystaný Cloud Brain III má nasadit tisíce čipů Ascend 910C. Tyto systémy sice nedosahují absolutního výkonu nejlepších amerických superpočítačů, ale poskytují nezávislou kapacitu pro výzkum a průmysl v Číně.
Celkově lze říci, že Ascend 910/910B nachází uplatnění především v Číně, a to v projektech financovaných velkými technologickými firmami a státem (cloudové služby, superpočítače pro AI, nasazení v akademii). Nvidia Blackwell naproti tomu bude dominovat globálnímu trhu nejvýkonnějších AI akcelerátorů a široce se rozšíří v datových centrech velkých poskytovatelů cloudu i enterprise sféře (tam, kde není geopolitická překážka). V Číně se Nvidia musí spokojit s prodejem omezených verzí, zatímco Huawei (a další domácí výrobci jako Cambricon, Biren, Moore Threads aj.) si rozdělí rostoucí domácí poptávku.
Geopolitické aspekty
Vývoj těchto čipů probíhá ve stínu geopolitického soupeření mezi USA a Čínou. Americké sankce zamezily Huawei přístup k špičkovým výrobním službám (TSMC 5nm/3nm) a také k některým EDA nástrojům a IP blokům. To donutilo Huawei k domácí soběstačnosti – investice do SMIC, vývoj vlastního softwarového ekosystému (MindSpore jako alternativa amerických frameworků), a spolupráce s domácími partnery (např. vytváření čínských cloudových řešení pro AI). Čínská vláda tyto snahy silně podporuje finančně i politicky, neboť vnímá čipovou soběstačnost jako strategickou prioritu. Příběh Ascend 910B/910C dobře ilustruje tuto dynamiku: navzdory sankcím Huawei dokázala uvést novou verzi čipu a získat pro ni velkého zákazníka (Baidu), což by nebylo možné bez politické podpory a masivních investic. Na druhé straně, USA průběžně zpřísňují kontrolu – v říjnu 2022 byl rozšířen seznam restrikcí na AI čipy, zahrnuty byly i limity na čínské pokusy o superpočítače a exporty pokročilých čipů (včetně zmiňovaných HBM pamětí). To vedlo Huawei k nestandardním krokům (skryté nákupy přes třetí strany) a rovněž ukázalo obtížnost vynucování těchto opatření (globální dodavatelský řetězec čipů je tak komplexní, že úplná blokáda má mezery). Z hlediska amerických technologií vs čínských: momentálně americké (Nvidia) vedou o jednu generaci v silicon designu a minimálně dvě generace ve výrobním procesu. Čínské (Huawei/SMIC) však dělají rychlé pokroky v dohánění – například vlastním úsilím dosáhli funkční 7nm čipy (bez přístupu k EUV), pracují na 5nm, a také zlepšují architekturu (910C už využívá čipletovou kombinaci dvou čipů, 920 slibuje specializace pro Transformers/MoE atd.). V dlouhodobém horizontu se dá očekávat, že Čína bude schopna vyrobit konkurenceschopné AI čipy zcela autonomně, pokud geopolitické tlaky přetrvají.
Pro Nvidia a USA představuje čínský trh paradoxně jak riziko, tak příležitost. Riziko v tom, že restrikcemi přichází o miliardové obchody (poptávka po A100/H100 v Číně je obrovská) – což částečně „zachraňuje“ nabídkou omezených verzí (A800/H800) a lobbováním za výjimky. Příležitost v tom, že americké firmy zatím stále technologicky vedou a pokud by sankce byly zmírněny, trh by okamžitě absorboval velké objemy jejich čipů (např. Baidu, Alibaba by raději kupovaly nejnovější Nvidia GPU, pokud by mohly). V roce 2025 se dokonce objevily náznaky debat v USA o přehodnocení těchto restrikcí, vzhledem k tomu, že kompletní zákaz by mohl více uškodit americkým firmám finančně a urychlit soběstačnost Číny. Čínská strategie ale sází na to, že „druhá volba“ v podobě domácích čipů musí existovat a být použitelná. Huawei CFO Meng Wanzhou prohlásila, že Huawei chce vybudovat výpočetní základnu pro Čínu a dát světu právě tu alternativní volbu k americké dominanci.
Geopolitický význam těchto čipů tedy přesahuje techniku: Ascend 910B je symbolem odhodlání Číny obejít americké technologie a Nvidia Blackwell je zase demonstrací americké (resp. tchajwanské) technologické převahy v čipech. Obě strany nyní soupeří nejen o výkon a zákazníky, ale i o to, kdo bude určovat standardy a ekosystém AI výpočtů.
Využití pro AI trénink a inferenci (datacentra a cloud)
AI akcelerátory jako Ascend a Blackwell jsou navrženy tak, aby zvládaly jak trénování obřích neuronových sítí, tak inferenci (nasazení modelů pro běh). Ovšem některé vlastnosti je předurčují více k trénování (např. velká přesnost, vysoká propustnost mezi čipy), jiné k inferenci (energetická úspornost při nižší přesnosti, možnost rozdělit výkon).
Huawei Ascend 910/910B – tyto čipy byly primárně zaměřeny na trénování AI modelů. S 256 TFLOPS FP16 dokáží relativně rychle natrénovat sítě v řádu miliard parametrů. Huawei demonstrovala schopnosti již v roce 2019, kdy 1024 Ascend 910 v clusteru Atlas 900 vytvořilo světový rekord v trénování image recognition modelu ResNet-50. Pro trénování moderních jazykových modelů (LLMs) Huawei nasazuje kombinace více Ascend čipů – např. uvedený DeepSeek all-in-one systém využívá 16 akcelerátorů (910B nebo 910C) propojených do distribuované architektury. Výhoda Ascendu při tréninku v Číně je, že jej lze škálovat bez obav z embarga – firmy mohou budovat velké clustery a ladit modely přímo na míru. Nevýhoda je, že jeden Ascend má menší paměť (32GB) a výkon než ekvivalentní Nvidia GPU, takže pro trénink stejného modelu je potřeba více kusů a důkladná optimalizace paralelizace (což klade nároky na software). Pro inferenci (nasazení modelu do provozu) Ascend 910 až doposud nebyl příliš používán, protože 310 W akcelerátor je spíše pro serverový batch inferencing než pro nasazení v reálném čase. Huawei proto nabízí i menší čipy Ascend 310/710 pro edge a datacentrovou inferenci s nižší spotřebou. V datacentrech lze 910/910B využít pro batch inferenci velkých modelů – např. generování odpovědí LLM pro větší množství dotazů paralelně. DeepSeek uvádí, že díky architektuře MoE se dá na Ascend efektivně inferovat, protože v každém tokenu se aktivuje jen ~4 % parametrů modelu, čímž se zátěž rozloží. Huawei také implementovala funkce jako online komprese modelu či multi-instance běh (podobný MIG), aby jedno GPU mohlo sloužit více požadavkům. Celkově Ascend zvládá inference, ale jeho silná stránka je spíše trénink – Huawei jím cílí na budování “AI počítačů” pro výzkum (viz Peng Cheng Lab) a pro cloudové poskytování AI výpočetů (Ascend Cluster Service v Huawei Cloud).
Nvidia B100/B200 – Nvidia navrhla Blackwell tak, aby byl univerzálním akcelerátorem pro celý životní cyklus modelu. Díky ohromnému výkonu v nízké přesnosti (FP8, INT8) a funkci Transformer Engine se B200 výborně hodí pro inferenci velkých jazykových modelů v reálném čase. Nvidia uvádí, že systém s GB200 (Grace CPU + Blackwell GPU) dosahuje až 30× vyššího výkonu při inferenci LLM než stejný počet H100 a zároveň snížení spotřeby 25× – to díky kombinaci optimalizací a architektury. Blackwell také podporuje zmíněné MIG rozdělení: jeden B200 modul lze například rozdělit na 4–7 virtuálních GPU, které paralelně obsluhují různé úlohy inferencí (např. microservices). Zároveň ale Blackwell nezanedbává trénink – s dvěma čipy a 192GB paměti zvládne trénovat jedním uzlem modely o desítkách miliard parametrů (a ve více uzlech i stovky mld.). Kvůli vysoké propustnosti NVLink v podobě NV-HBI můžeme očekávat, že škálování mezi GPU (tzv. cross-GPU komunikace při distribuovaném tréninku) bude velmi efektivní, lepší než u předchozích generací. To sníží overhead a umožní téměř lineární škálování tréninku napříč stovkami GPU. Blackwell tedy bude pravděpodobně základní stavební jednotkou AI superpočítačů na Západě pro trénink i inference (nahrazuje dřívější kombinace GPU+CPU; zde Grace-Blackwell funguje jako homogenní výpočetní prvek s obří pamětí).
Cloudová integrace: Již výše jsme zmínili, že velcí cloud provideri jako AWS, Google Cloud, Azure zařadí Blackwell GPU do své nabídky GPU instance (pravděpodobně jako následovníky současných H100 VM). To znamená, že pro běžné podniky a vývojáře globálně bude nejjednodušší pronajmout si výkon Nvidia (protože je dostupný, známé prostředí, platba za hodinu). Naproti tomu čínské cloudy (Huawei Cloud, Alibaba Alicloud, Tencent Cloud, Baidu AI Cloud atd.) jsou nuceny inovovat s dostupnými domácími čipy. Již dnes Huawei Cloud nabízí virtuální instance s Ascend 910 (Heterogeneous Compute Service) pro AI výpočty. Baidu a Alibaba oznamují podporu pro domácí modely (DeepSeek) – ne vždy explicitně uvádějí hardware, ale lze předpokládat, že v pozadí využijí Ascend nebo jiný čínský akcelerátor, pokud nebude dost Nvidií. UCloud, Qihoo 360 a další menší poskytovatelé taktéž experimentují s domácími AI čipy, aby se odlišili na trhu a vyhnuli problémům s nedostatkem Nvidia GPU.
Z perspektivy uživatele AI služeb jde o to, že v USA/Evropě běží AI modely v cloudu téměř výlučně na Nvidii (případně Google TPU), zatímco v Číně se začíná formovat dvoukolejnost – některé služby (zejm. pro státní sektor, armádu, citlivé obory) poběží na čistě čínském hardwaru (Ascend, Hygon, Cambricon), zatímco jiné mohou využívat i „legální“ verze Nvidia čipů (H800). Důležitý dopad je v optimalizaci AI modelů: čínští vývojáři musí modely optimalizovat tak, aby běžely dobře na jiném než nvidia hardware. To historicky nebylo obvyklé (většina open-source modelů předpokládá CUDA GPU). Proto projekty jako DeepSeek kladou důraz na to, že jejich modely jsou hardware-friendly a dokážou běžet na „good enough“ čipech. Pokud se to prokáže u více aplikací, Čína získá větší technologickou nezávislost v AI – nebude muset spoléhat na americké komponenty ani pro trénink, ani pro nasazení umělé inteligence.
Závěr
Huawei Ascend 910/910B a Nvidia Blackwell (B100/B200) představují dvě odlišné cesty ve vývoji AI čipů. Huawei zvolila cestu specializovaných AI jader, vysoké integrace a nyní i domácí výroby, aby poskytla Číně alternativu k Nvidii – byť za cenu momentálně nižšího výkonu než nejnovější světová špička. Nvidia nadále udává tempo v maximálním výkonu a pokročilé architektuře, což demonstruje Blackwell s mnohateraflopovými (až petaflopovými) schopnostmi a bohatým ekosystémem softwarové podpory.
Z technického hlediska má Blackwell výrazný náskok v hrubém výkonu (FP16/FP8), paměťové kapacitě a funkcích jako podpora FP4 či pokročilé propojování více čipů. Ascend 910/910B drží krok v efektivitě na watt u své generace a pro standardní FP16/INT8 výpočty nabízí solidní výkon srovnatelný s Nvidia A100. Jeho architektura se osvědčila v praktických nasazeních (Atlas 900, Cloud Brain II) a Huawei ji postupně vylepšuje (910C/D, 920) tak, aby snížila mezeru vůči Nvidii.
Strategicky vzato je souboj těchto čipů odrazem širšího soutěžení. V dohledné době bude Nvidia Blackwell dominovat globálním AI výpočtům všude tam, kde nejsou restrikce – díky bezkonkurenční kombinaci výkonu, efektivity a zázemí. Huawei Ascend se stane oporou domácího AI průmyslu Číny, umožní pokračovat ve výzkumu a vývoji velkých modelů i pod sankcemi a sníží závislost na dovozu. Již nyní se ukazuje, že Čína dokáže na Ascendu a dalších domácích akcelerátorech provozovat LLM modely s výkonem blízkým řešení s Nvidií. Do budoucna tak můžeme očekávat, že obě ekosféry budou koexistovat – s vlastními optimalizacemi, frameworky a specializacemi pro své trhy. Pro oblast AI to může být přínosné v tom, že zdravá konkurence povede k dalším inovacím, a zároveň vznikne různorodější globální AI infrastruktura, odolnější vůči případným omezením dodavatelských řetězců či politickým vlivům.