Wednesday, May 28, 2025
spot_img

Čínské AI čipy: Noví hráčí v AI, o kterých jste ani neslyšeli

Úvod: Čína v posledních letech masivně investuje do vývoje vlastních čipů pro umělou inteligenci (AI). Cílem je snížit závislost na zahraničních dodavatelích, jako jsou Nvidia či AMD, a podpořit domácí inovace i přes omezení způsobená americkými sankcemi. Na trhu se objevila řada specializovaných firem – od startupů po odštěpené výzkumné projekty – které navrhují AI akcelerátory pro datová centra, výkonné HPC systémy, cloud, edge computing i koncová zařízení. Mezi nejvýznamnější patří společnosti jako Cambricon, Biren Technology, Moore Threads, Hygon, Denglin nebo Tianshu Zhixin, které již představily vlastní AI čipy (např. Siyuan, BR100, MTT, DCU, Big Island atd.). V článku se podrobně zaměříme na jednotlivé firmy, jejich klíčové čipy a architektury, technické parametry, oblasti použití a v neposlední řadě i strategické a finanční aspekty spojené s čínským AI hardwarovým ekosystémem. Na závěr přinášíme přehlednou srovnávací tabulku nejdůležitějších čipů a shrnutí hlavních trendů roku 2025.

Cambricon: průkopník čínských AI procesorů

Profil: Cambricon Technologies (čínsky 寒武纪, v překladu „kambrium“) vznikla v roce 2016 jako odštěpená firma Čínské akademie věd a rychle se stala symbolem domácích AI čipů. Zaměřuje se na vývoj specializovaných AI procesorů pro cloudová datacentra, edge zařízení i koncové mobilní čipy. Cambricon dodává jak hotové čipy a akcelerační karty, tak i IP jádra pro integraci do jiných čipů. Pro svoje produkty zavedla vlastní architekturu a instrukční sadu známou jako MLU (Machine Learning Unit).

Klíčové čipy a architektury: Hlavní produktovou řadu Cambriconu tvoří čipy rodiny SiYuan (思元). Pro cloudové nasazení uvedla firma například akcelerátory Cambricon SiYuan 290 a SiYuan 370, zatímco pro edge AI slouží menší čip SiYuan 220 a odpovídající akcelerátorové karty. Pro koncová zařízení (smartphony apod.) Cambricon dříve vyvinul IP jádra Cambricon-1A a 1H, která se objevila např. v NPU jednotkách mobilních čipů Kirin od Huawei. Novější generace cloudových čipů Cambricon označuje vyššími čísly – podle dostupných informací firma chystá další high-end akcelerátor SiYuan 590 s výrazně vyšším výkonem oproti řadě 290. Výpočetní architektura MLU kombinuje klasická programovatelná jádra s optimalizovanými tensor jádry pro urychlení maticových operací, podobně jako u GPU od Nvidie.

Technické parametry: Nejvýkonnějším akcelerátorem Cambriconu (ke konci roku 2024) je karta s čipem MLU290-M5, dosahující až 512 TOPS (INT8), resp. 256 TOPS (INT16), při využití 32 GB paměti HBM2 s propustností 1,2 TB/s. Další výkonný model MLU370-X8 podporuje i výpočty s plovoucí desetinnou čárkou (FP32/FP16/BF16) – nabízí až 24 TFLOPS ve FP32 a 256 TOPS v INT8 a je osazen 48 GB paměti LPDDR5. Pro srovnání, Nvidia A100 (2020) dosahuje ~19,5 TFLOPS (FP32) a až 624 TOPS (INT8 se sparsitou). Cambricon tak na úrovni hardwaru zhruba odpovídá akcelerátorům předchozí generace Nvidie, byť stále zaostává několik let za špičkou (např. aktuální Nvidia H100). Využívá pokročilý výrobní proces kolem 7 nm – detaily o foundry nejsou veřejné, zvláště poté co se Cambricon ocitl na americkém Entity Listu, který omezuje využití služeb TSMC.

Ekosystém a podpora: Velkou výzvou pro nové AI čipy je softwarová podpora. Cambricon proto vyvinul vlastní platformu Cambricon NeuWare a podporuje populární AI frameworky TensorFlow, PyTorch aj. prostřednictvím knihoven a kompilátorů. Nejnovější akcelerátory MLU370 umí širokou škálu datových formátů – od INT4 po FP32 – a jsou určeny pro univerzální nasazení (trénování i inference). Cambricon také spolupracuje s výrobci serverů; akcelerátory SiYuan byly integrovány např. do serverových platforem Inspur a Lenovo.

Použití: Čipy Cambricon našly uplatnění v datacentrech a cloudových službách v Číně, zejména poté, co USA zakázaly vývoz nejpokročilejších GPU od Nvidie (A100, H100) do Číny. Domácí zákazníci jako Huawei proto zvýšili poptávku po akcelerátorech Cambricon, což firmě pomohlo na konci roku 2024 dosáhnout prvního ziskového čtvrtletí. Menší čipy SiYuan 220 pro edge zařízení se uplatnily ve smart kamerách, průmyslovém IoT a dalších embedded aplikacích – podle Cambriconu se těchto edge čipů prodalo již přes 1 milion kusů. Cambricon tak pokrývá celou škálu nasazení od datového centra až po koncové zařízení.

Finanční a strategické aspekty: Cambricon v roce 2020 vstoupil na šanghajskou burzu STAR Market (ticker 688256) jako první AI čipová firma, což jí zajistilo značný kapitál na vývoj. Ačkoli firma dosud (k roku 2024) kumulativně nevykázala zisk kvůli vysokým nákladům na R&D, tržby rychle rostou – v roce 2024 dosáhly ~1,2 mld. ¥ (cca 164 mil. USD), +70 % meziročně. Po zákazu exportu Nvidia GPU vyskočila cena akcií Cambriconu během roku 2024 o více než 470 %. Společnost těží ze státní podpory (vznikla za přispění Akademie věd) i ze silných partnerů (Huawei, Alibaba aj.), kteří v rámci strategie self-reliance nasazují domácí čipy. Do budoucna Cambricon plánuje další generační skok s čipy Siyuan 500+ řady a aspiruje na pozici klíčového hráče pro AI infrastrukturu v Číně.

Biren Technology: čínská výzva dominanci Nvidie

Profil: Biren Technology (上海壁仞科技) je startup založený v Šanghaji v roce 2019 skupinou veteránů z Nvidie a Alibaby. Od počátku cílí na vývoj špičkových GPGPU procesorů pro AI a HPC, které by výkonnostně konkurovaly nejlepším GPU od Nvidie. Biren se stal jedním z nejnadějnějších „GPU unicornů“ v Číně – v roce 2022 byl oceňován na ~2,7 mld. USD a koncem roku 2024 zahájil přípravy na IPO. Firma získala podporu významných investorů včetně státem napojených fondů z Kantonu (poskytly ~280 mil. USD po zařazení Birenu na Entity List). Biren je často zmiňován jedním dechem s Nvidia vs. Čína – byl považován za jednoho z nejvážnějších domácích kandidátů, který může Nvidii na čínském trhu AI čipů konkurovat.

Klíčové čipy: V srpnu 2022 Biren odhalil svou první generaci GPU architektury, zahrnující high-end čip Biren BR100 a odvozený model BR104. Jde o výkonné univerzální grafické akcelerátory (GPGPU) určené primárně pro akceleraci AI trénování a náročných výpočtů. Vlajkový model BR100 se svou složitostí blíží nejmodernějšímu Nvidia H100 a firma tvrdila, že v určitých úlohách dokáže soupeřit s Nvidií A100 či dokonce H100. Čip BR100 má extrémních 77 miliard tranzistorů (pro srovnání, Nvidia A100 ~54 mld., H100 ~80 mld.) a využívá vícečipový design (2 čipletové matrice) vyráběný 7nm procesem TSMC s pokročilým pouzdřením CoWoS. Menší BR104 má ~54 mld. tranzistorů a poloviční konfiguraci výkonu.

Technické parametry: Biren BR100 disponuje až 64 GB paměti HBM2e (rozhraní 4096bit) s propustností ~1,64 TB/s. TDP modulu (formát OAM) je vysokých 550 W. Výpočetní výkon dosahuje v maximu cca 256 TFLOPS (FP32) a 2048 TOPS (INT8) – to odpovídá 2 PFLOPS pro int8 inferenci. Odlehčený BR104 (300 W karta) má 32 GB HBM2e, poloviční sběrnici a poloviční výkon (~128 TFLOPS FP32). Biren GPU podporují stejné datové formáty jako Nvidia (FP32, FP16, BF16, INT8 atd.), nejsou však určené pro FP64 (double) – soustředí se na AI a HPC výpočty. V kontextu mezinárodní konkurence se BR100 blíží akcelerátoru Nvidia A100 z roku 2020 a v některých ukazatelích jej překonává – např. FP32 výkon 256 TF vs. 19,5 TF u A100. Nicméně nejnovější Nvidia H100 (2022, 4nm) má opět náskok (60 TFLOPS FP32, 1000+ TOPS INT8 se sparsitou) a zejména vyzrálý softwarový ekosystém.

Sankce a dopad na výrobu: První várky čipů Biren byly vyrobeny u TSMC na 7nm procesu, avšak v říjnu 2022 zpřísnila americká vláda exportní kontroly – výkonné AI čipy pro Čínu podléhají omezení a TSMC zastavila výrobu i dodávky čipů Biren. Biren se pokusil obejít restrikce úpravou designu (údajně snížením rychlosti komunikace čipu, aby neporušoval limity definované sankcemi), avšak nejistota kolem výroby zůstala. V říjnu 2023 byl Biren navíc přímo zařazen na Entity List, což de facto znemožňuje využívat americké technologie (včetně EDA nástrojů či služeb pokročilých foundry). Důsledkem bylo propouštění cca 1/3 zaměstnanců koncem 2022 a značné zpomalení plánů. Firma zatím neuvedla druhou generaci čipů; místo toho se soustředí na přežití v nových podmínkách a snaží se získat kapitál přes připravované IPO v Číně. Paradoxně ale sankce také způsobily nedostatek konkurenčních GPU v Číně – takže pokud Biren dokáže své čipy dostat na trh, má o zákazníky postaráno (čínské datacentrum nemůže snadno koupit nejnovější Nvidia GPU a bude zvažovat domácí alternativy).

Použití a výkon: Biren BR100 cílil na datacentrové AI akcelerátory – například pro trénování velkých modelů (LLM, obrazové AI) či vědecké výpočty. Byly plánovány v provedení karta do serveru i modul do HPC systémů. Veřejně známé nasazení je ovšem zatím omezené; masová výroba byla pozdržena sankcemi a Biren tak nestihl větší komerční dodávky. Jeho GPU se nicméně objevily v benchmarkových testech a dle tvrzení firmy by superpočítač s Biren GPU mohl dosahovat výkonu srovnatelného se špičkovými systémy založenými na Nvidii. Čínský trh (zejména cloudové firmy, jako Alibaba nebo Tencent) o tyto čipy projevoval zájem, neboť jsou potenciálním náhradním zdrojem AI výpočetního výkonu v případě dlouhodobého výpadku dodávek od Nvidie. Bude však záležet na schopnosti Biren obejít technologická omezení – jednou z možností je využít čínské továrny SMIC, avšak ta zatím nemá ověřenou kapacitu na srovnatelně pokročilý proces se stabilními výtěžky.

Finanční stav: Biren jako soukromý startup prošel několika koly financování – zúčastnily se jich například IDG Capital, Walden International či vládní fondy. V září 2024 zahájil tzv. „tutoring“ proces přípravy na IPO na některé z čínských burz, obdobně jako konkurenční firma Enflame. Hodnota Birenu byla koncem 2023 odhadována na ~2,2 mld. USD. Přestože firma zatím nevykázala zisk a její budoucnost je kvůli sankcím nejistá, je strategicky důležitá – v očích čínské vlády představuje schopnost vyvinout domácí high-end GPU pro AI klíčový prvek technologické nezávislosti. Lze očekávat, že Biren bude v nějaké formě pokračovat (ať už restrukturalizovaný, nebo s pomocí státních partnerů), aby se zužitkovaly dosavadní investice do jeho špičkového designu.

Moore Threads: univerzální GPU pro hry i AI

Profil: Moore Threads (摩尔线程) je mladá firma založená v říjnu 2020 v Pekingu bývalým viceprezidentem Nvidia Global, Jamesem Zhangem (Zhang Jianzhong). Jako první čínský startup se pustila do vývoje plnohodnotných GPU pro grafiku, gaming i obecné výpočty. Moore Threads se profiluje jako „čínská Nvidia“ v oblasti běžných grafických karet – v roce 2021 představila první domácí herní GPU a postupně vyvinula několik generací architektury MUSA (Moore Threads Unified System Architecture). Její produkty mají pokrýt potřeby hraní, 3D grafiky, multimédií (video), ale také akcelerace AI a výpočtů.

Klíčové produkty: První generace GPU Moore Threads debutovala na jaře 2022 uvedením karty MTT S60 (desktopový grafický adaptér) a profesionální karty MTT S2000 pro servery. Tyto čipy využívaly 1. generaci architektury MUSA a vyráběly se 12nm technologií. V listopadu 2022 pak firma odhalila vylepšené GPU MTT S80 – vůbec první herní grafickou kartu s rozhraním PCIe 5.0. MTT S80 obsahuje čip kódově nazývaný „Chunxiao“ s 4096 jádry MUSA na frekvenci 1,8 GHz a má výkon ~14,2 TFLOPS (FP32), doplněný 16 GB GDDR6 paměti (256bit, 14 Gb/s). Parametry S80 jsou tedy zhruba na úrovni střední třídy GPU od AMD/Nvidie (pro srovnání GeForce RTX 3060 ~13 TFLOPS).

Koncem roku 2023 Moore Threads představila již 3. generaci MUSA architektury v podobě výkonného GPU MTT S4000 pro AI a datacentra. Tento čip je zaměřen na trénování modelů a nasazení ve velkých výpočetních clusterech. Má 48 GB paměti GDDR6, běží na sběrnici PCIe 5.0 a dosahuje cca 200 TOPS AI výkonu (zřejmě INT8). Přesné parametry FP32 výkonu S4000 nebyly zveřejněny, ale dle odhadů nedosahují úrovně high-end čipů Nvidie Ampere/Ada. S4000 však vyniká velkou paměťovou kapacitou (48 GB) a solidní propustností 768 GB/s, což umožňuje trénovat i větší AI modely. Firma uvádí, že ve clusteru 1000 GPU S4000 (nazvaném KUAE Intelligent Computing Center) trvalo natrénování velkého jazykového modelu s 70 miliardami parametrů 33 dní – to naznačuje praktickou použitelnost pro LLM úlohy, i když výkon je nižší než u špičkových zahraničních řešení (Nvidia by obdobný úkol zvládla rychleji). Moore Threads plánuje S4000 nabízet hlavně jako součást celých řešení (clusterů) velkým zákazníkům, nikoli jako samostatné karty.

Softwarová kompatibilita: Aby Moore Threads uspěla na grafickém trhu, musela vyvinout od základu celé softwarové ovladače a API. Její GPU postupně získaly podporu pro grafické rozhraní DirectX 11/12, OpenGL a Vulkan. Pro AI výpočty firma představila nástroj MUSIFY, který umožňuje překlad kódu pro CUDA na platformu MUSA bez ztráty výkonu. To je významné – vývojáři mohou relativně snadno portovat existující AI software původně napsaný pro Nvidia CUDA na GPU Moore Threads. Podobnou strategii kompatibility s ekosystémem CUDA uplatňují i další čínští výrobci (Hygon, Denglin aj.), neboť ekosystém kolem Nvidie je dominantní.

Použití: Moore Threads cílí dvojím směrem. Zaprvé chce domácí grafické karty pro PC segment – MTT S60/S80 se začaly prodávat na čínském trhu a spolu s vylepšovanými ovladači již dokáží zprovoznit řadu her (byť výkon a kompatibilita zatím nedosahuje úrovně Geforce/Radeon). Druhou oblastí je datacentrové nasazení: karty MTT S2000/S3000 našly uplatnění v pracovních stanicích a podnikových serverech pro akceleraci grafiky nebo AI inferencí. Nejnovější S4000 míří na AI trénování v cloudu – Moore Threads například demonstrovala velký cluster pro AI výpočty a spolupracuje se společností Lenovo na uvádění těchto řešení. Díky podpoře CUDA a velké paměti je S4000 atraktivní pro čínské firmy vyvíjející vlastní generativní AI, které nemohou volně nakoupit nejnovější GPU Nvidia.

Finanční situace: Moore Threads získala výrazný venture kapitál – do roku 2023 proběhlo šest kol financování v celkovém objemu přes 10 miliard ¥ (asi 1,5 mld. USD). Investory jsou jak soukromé fondy (Sequoia Capital China, Tencent, ByteDance), tak kapitál napojený na město Šen-čen. V listopadu 2023 firma uzavřela Series B+ investici přes 2 mld. ¥ a její valuace dosáhla ~25–28 mld. ¥ (3,5–4 mld. USD). Moore Threads se tak řadí mezi tzv. jednorožce a spekuluje se o přípravách na IPO v nejbližších letech. Strategicky má podporu i morální – CEO James Zhang v roce 2023 prohlásil, že „čínské GPU nezažijí temné časy“ a věří v dlouhodobý úspěch domácích inovátorů. Firma zdůrazňuje využití v metaversu, AI generování obsahu (AIGC) atp., tedy oblastech, kde může těžit z kombinace grafického a AI výkonu svých čipů.

Hygon: CPU a GPU pro čínská datacentra

Profil: Hygon (Hygon Information Technology), čínsky Haiguang (海光), je unikátním podnikem na pomezí CPU a GPU světa. Původně vznikl jako joint venture s americkým AMD v roce 2016, aby licencoval a vyráběl x86 procesory pro čínský trh. Díky tomu Hygon uvedl řadu serverových CPU kompatibilních s AMD EPYC (známých jako Dhyana). Po zpřísnění amerických omezení na x86 licence se Hygon osamostatnil a rozšířil záběr – vyvíjí nejen CPU, ale i koprocesory DCU. Zkratka DCU oficiálně znamená „Drive/Device Control Unit“, ale reálně jde o označení jejich GPGPU akcelerátorů pro AI a výpočtyreuters.com. Hygon se tak profiluje jako dodavatel kompletní platformy CPU+GPU pro domácí servery a superpočítače.

CPU a DCU produkty: Hygonovy procesory (Hygon CPU) jsou vyráběny ve verzích 3000, 5000 a 7000, které odpovídají zhruba generacím AMD Zen 1 až Zen 3. Tyto procesory nacházejí uplatnění ve státní sféře, telekomunikacích, finančnictví apod., kde nahrazují Intel/AMD CPU kvůli bezpečnosti. Pro nás je ale zajímavější řada Hygon DCU 8000 – první domácí datacentrové GPU. Hygon DCU (někdy přezdívaný komerční název “Deep Computing Unit”) je plnohodnotný GPGPU akcelerátor kompatibilní s programovacím modelem CUDA. Architektoně je to obdobné GPU (tisíce paralelních jader) doplněné o hlubokou integraci s CPU Hygon. Podle dostupných zpráv DCU podporuje nejen CUDA-like prostředí, ale i ekosystém ROCm od AMD a běží na něm hlavní AI frameworky jako TensorFlow. To naznačuje, že Hygon mohl využít některé technologie podobné AMD GPU (ROCm je open-source platforma pro GPU akceleraci).

První generace Hygon DCU 8000 (kódově zvaná možná „Shensuan 1“ – “Deep Calculation 1”) byla údajně dokončena kolem roku 2020–2021 a komerčně nasazena v roce 2023. Výrobní proces nebyl veřejně zmíněn; vzhledem k datu vývoje se odhaduje použití 14nm technologie (snad v čínském SMIC). Hygon CPU a DCU jsou často nasazovány společně – např. v serverech Sugon (Dawning) pro supercomputing, kde CPU Hygon poskytují výpočetní základ a DCU akcelerují AI a velká data.

Výkon a použití: Konkrétní parametry Hygon DCU (počet jader, TFLOPS) nebyly oficiálně publikovány. Hygon uvádí spíše aplikační výkon – DCU je optimalizováno pro zpracování velkých dat, AI a obchodní výpočty v serverových klastrech. Díky plné kompatibilitě s CUDA je pro zákazníky poměrně snadné přenést existující AI aplikace na platformu Hygon. To je kritické zejména kvůli sankcím: Hygon může vybavit domácí datacentra kompletně čínskými procesory i akcelerátory, čímž odpadá riziko, že by např. Nvidia GPU přestaly být dostupné. Už v roce 2022, kdy Hygon vstoupil na STAR Market (burza v Šanghaji), investoři ocenili jeho roli – během roku 2024 firma vykázala tržby přes 9,16 mld. ¥ (+52 % YoY) a čistý zisk ~1,93 mld. ¥. To naznačuje, že nasazení CPU/DCU Hygon je reálně značné (pravděpodobně stovky tisíc CPU v provozu a rostoucí počet DCU akcelerátorů).

Strategie: Hygon jako polostátní podnik je příjemcem vládní podpory v rámci politiky náhrady zahraničních technologií (“IT replacement”). Jeho CPU jsou dnes de facto jedinými výkonnými x86 čipy vyráběnými v Číně a DCU je první GPU navržené a vyráběné kompletně domácími silami ve větším měřítku. Firma se prezentuje jako “naděje pro domácí vysoce výkonné procesory” a buduje si široký ekosystém – uvádí, že pro DCU vyvinula vlastní softwarový stack a že její čipy jsou nasazeny v mnoha oborech (telekomunikace, finance, doprava, vzdělání). Hygon je tedy jakýmsi čínským ekvivalentem kombinace Intel+Nvidia pod jednou střechou. Do budoucna lze očekávat, že firma bude iterovat nové generace (např. CPU 8000 řady na architekturách Zhaoxin či RISC-V, a DCU 9000 řady s vyšším výkonem).

Denglin Technology: úsporné AI GPU pro edge a cloud

Profil: Shanghai Denglin Technology (登临科技) je startup z roku 2017 zaměřený na AI akcelerátory nové generace. Její zakladatelé mají bohaté zkušenosti z vývoje GPU ve světových firmách a pobočky firmy najdeme i v Pekingu, Chengdu či Silicon Valley. Denglin se proslavila tím, že jako první v Číně uvedla do hromadné výroby vlastní univerzální AI GPU: řadu s kódovým označením Goldwasser. (Jména architektur Denglin jsou inspirována slavnými destiláty – Goldwasser je bylinný likér se zlatem, další generace se možná jmenují obdobně originálně.) Architekturu popisuje Denglin jako GPU+ – spojuje vysoce paralelní programovatelný GPGPU engine s efektivním maticovým Tensor Engine, čímž dosahuje univerzálnosti i vysoké efektivity pro AI.

Goldwasser (GPU+ série): První čip Goldwasser byl vydán koncem roku 2021 a Denglin o něm hovoří jako o „prvním velkokapacitně vyráběném vysokovýkonném AI GPGPU čipu v Číně“. K dispozici jsou varianty Goldwasser UL32 a UL64, lišící se konfigurací a spotřebou. Už názvy napovídají výkon: UL32 dosahuje 32 TOPS (INT8), model UL64 64 TOPS (INT8), při velmi nízké spotřebě 10 W, resp. 15 W. To odpovídá také zhruba 8 TFLOPS FP16 (UL64). Jde tedy o velmi efektivní akcelerátory – výkonem na úrovni mobilního Nvidia Xavier GPU, avšak s plnou programovatelností. Formát modulů je MXM (používaný např. v noteboocích), takže jsou malé a vhodné pro edge computing zařízení. Goldwasser však lze škálovat i do větších systémů – Denglin uvádí, že její produkty byly nasazeny u desítek předních firem v oblasti smart cities a internetu, v různých scénářích od edge po cloud. Příklady mohou zahrnovat chytré kamery s modulárními akcelerátory nebo servery pro streamové zpracování videa a AI inference.

Kompatibilita a ekosystém: Stejně jako u jiných čínských GPU klade Denglin důraz na snadnou migraci softwaru. Jejich hardware je „přímo kompatibilní s CUDA“ – pravděpodobně to znamená, že podporuje stejný programovací model a instrukce jako Nvidia GPU. To vývojářům umožňuje používat známé nástroje a knihovny. Denglin se tak podařilo rychle komercializovat svůj čip – v době uvedení hlásila firma „explozivní růst“ zájmu. Získala také důvěru investorů: počátkem 2023 oznámila strategickou investici, na níž se podílel dokonce Qualcomm Ventures (investiční větev Qualcommu) a další fondy. To svědčí o tom, že technologie Denglin je považována za perspektivní i navzdory geopolitickému napětí.

Budoucí vývoj: Denglin se řadí mezi „skryté šampiony“ – není tolik medializovaná jako větší jména, ale v svém segmentu (efektivní AI akcelerátory) vede. Jako jedna z mála dokázala překlenout propast od prototypu k hromadné výrobě v čínském prostředí. Dá se očekávat, že firma bude pokračovat výkonnější generací GPU+ čipů, které možná zacílí i na vyšší výkon (např. 100+ TOPS). Zmiňováno je, že Denglin plánuje „neustále uvádět nové produkty“ a držet si náskok v komerčním nasazení. Vzhledem k investicím a partnerům je možná i spolupráce se zahraničními firmami (Qualcomm by mohl využít know-how Denglin pro své vlastní AI čipy, nebo naopak pomoci s výrobou). V každém případě Denglin ukazuje, že cesta skrze specializované optimalizované architektury může být v sankční éře schůdnější než závodit s giganty přímo ve výkonu za cenu vysoké spotřeby.

Tianshu Zhixin (Iluvatar): první 7nm GPU „Big Island“

Profil: Tianshu Zhixin Semiconductor (天数智芯), známá také pod anglickým názvem Iluvatar CoreX, je další z čínských firem vyvíjejících výkonné GPGPU pro AI. Založena byla v Šanghaji koncem roku 2015 veteránem z Oraclu Li Yunpengem. Firma získala silné vládní vazby – spolupracuje např. se Šanghajským superpočítačovým centrem a podnikem CEC (China Electronics Corp.). To se projevilo i ve vedení: v roce 2021 se předsedou stal Diao Shijing (dříve šéf Tsinghua Unigroup). Iluvatar/Tianshu se soustředí čistě na high-end: chce konkurovat Nvidii a AMD v oblasti AI akcelerátorů pro datacentra. V roce 2021 firma dosáhla statusu unicorn (valuace přes $1 mld.) a zaujala investory jako Sequoia Capital China (HongShan).

Big Island (Tiangai 100): Největším úspěchem Tianshu Zhixin bylo uvedení GPU kódově zvaného “Big Island” (Velký ostrov) v lednu 2021. Šlo o první čínský 7nm datacentrový GPU určený k trénování AI modelů. Čip Big Island, vyvíjený 4 roky, má přes 24 miliard tranzistorů a vyrábí se u TSMC 7nm s 2.5D CoWoS pouzdřením. Je vybaven 32 GB paměti HBM2 s propustností ~1,2 TB/s. Výpočetní výkon je impozantní: až 37 TFLOPS ve FP32 a 147 TFLOPS ve FP16/BF16. V nižší přesnosti INT8 dosahuje kolem 295 TOPS. Pro kontext – Nvidia A100 (2020) má 19,5 TFLOPS FP32 a ~156 TFLOPS FP16 (bez sparsity), AMD MI100 ~11,5 TFLOPS FP32 a 184 TFLOPS FP16. Big Island tedy v single precision překonal obě tyto karty, což byl obdivuhodný výsledek. GPU je optimalizované pro FP32/FP16, nepodporuje zřejmě plnou FP64 (dvoujitou přesnost), podobně jako konkurence cílící na AI.

Nasazení: Big Island byl prezentován jako možný „challenger“ zahraniční monopolní pozice. Do září 2021 firma oznámila objednávky v hodnotě 230 mil. ¥ na tyto čipy. Lze předpokládat, že skončily v domácích superpočítačových centrech a cloudech – s využitím pro cloud computing aplikace, trénování AI modelů a akceleraci HPC úloh. Díky vládním vazbám mohly tyto GPU posílit např. systémy v Akademii věd nebo armádním výzkumu. Big Island je považován za milník – dokázal, že čínská firma zvládne navrhnout konkurenční high-end čip, pokud má přístup k modernímu výrobnímu procesu. Nicméně již během roku 2021/22 se okno začalo zavírat (TSMC po 2022 zřejmě kvůli exportním kontrolám nemůže volně vyrábět další takto pokročilé čipy pro čínské firmy na Entity Listu).

Další vývoj (Zhikai): V květnu 2022 Tianshu oznámila dokončení návrhu nové řady Zhikai 100, což je 7nm akcelerátor určený spíše pro AI inferenci. Ten by doplnil Big Island (trénovací čip) v nabídce. Není jasné, zda byl uveden do výroby – možné, že prototypy existují, ale masová produkce mohla být ovlivněna sankcemi. Každopádně portfolio firmy směřuje k pokrytí trénování i inference.

Strategie a finance: Tianshu Zhixin kombinuje silné státní partnerství s komerčními investicemi. Získala financování od prestižních VC (Nikkei uvádí investice stovek miliónů RMB od Centurium Capital již 2019) a těží z národní podpory výzkumu čipů. Zapojení bývalého šéfa Tsinghua Unigroup naznačovalo možnou integraci do širšího státního čipového konglomerátu (Unigroup zastřešovala různé projekty jako paměti YMTC apod.), ale jeho odstoupení po vyšetřování v roce 2022 vneslo nejistotu. Nicméně Iluvatar CoreX pokračuje – v lednu 2024 získal investici od ex-sequoia fondu (HongShan) a byl oceněn přes $1 mld. Firma zřejmě zvažuje vstup na burzu STAR Market podobně jako Cambricon a Hygon.

Tianshu/Iluvatar zdůrazňuje národní význam: její čipy „byly považovány za možného narušitele zahraničního monopolu v Číně“. Toto se částečně naplnilo – Big Island ukázal cestu, ale zatím plně nenahradil potřebu Nvidia GPU (zejména kvůli softwaru a omezenému počtu nasazených kusů). Do budoucna však, pokud Čína pokročí s vlastní výrobou (SMIC 7nm apod.), může právě Tianshu být mezi prvními, kdo své další návrhy vyrobí zcela nezávisle a posune tak domácí AI hardware o úroveň výš.

Další hráči a ekosystém

Kromě výše uvedených společností existuje v Číně řada dalších projektů zaměřených na AI čipy – ať už v rámci velkých technologických firem, nebo jako startupy podporované giganty:

  • Huawei Ascend – Telekomunikační obr Huawei vyvinul vlastní sérii AI procesorů Ascend. Vlajkový čip Ascend 910 (7nm, 2019) dosahuje až 256 TFLOPS v FP16 a 512 TOPS v INT8 při spotřebě ~310 W, čímž v době uvedení patřil k nejvýkonnějším AI čipům světa. Huawei jej nasadil ve svých superpočítačích Atlas 900 a v cloudu. Odlehčená verze Ascend 310 (16nm) s 8 TOPS@8W je populární v edge zařízeních (kamery, automobily). Navzdory sankcím (Huawei je na Entity Listu od 2019) firma pokračuje ve vývoji – v roce 2023 představila modul Ascend 910B/910C, který spojil více čipů a zvedl výkon až na 800–1200 TFLOPS FP16. Huawei zároveň buduje kompletní AI ekosystém (framework MindSpore, knihovny CANN) pro své čipy. Ascend série konkuruje akcelerátorům Nvidia v čínských datacentrech (např. v bankách a provozech citlivých na importní omezení).
  • Alibaba Pingtouge (T-Head) – Cloudový gigant Alibaba má polovodičovou divizi T-Head (Pingtouge), která vyvinula AI inference čip Hanguang 800. Tento 12nm ASIC se specializuje na rychlé vyhodnocování neuronových sítí – na benchmarku ResNet-50 dosahuje 78 563 obrázků/s, což při uvedení v 2019 představovalo více než 4× vyšší výkon než tehdejší top GPU. Alibaba nasadila Hanguang 800 ve svých e-commerce aplikacích (vyhledávání, personalizace) a jako službu v Alibaba Cloudu. T-Head rovněž vyvíjí výkonné serverové CPU (Yitian 710) a IoT čipy, takže AI akcelerátor je součástí širší strategie vertikální integrace Alibaby.
  • Baidu Kunlun – Internetový vyhledávač Baidu investuje do AI čipů pro své potřeby. Jeho akcelerátory Kunlun (1. generace 2019, 14nm; 2. gen 2021, 7nm) jsou založeny na vlastní architektuře využívající zkušenosti z FPGA. Kunlun 1 údajně dosáhl ~256 TOPS INT8, Kunlun 2 má mít výrazně vyšší výkon a energetickou efektivitu. Baidu tyto čipy používá k akceleraci zpracování přirozeného jazyka ve svých AI službách a nabídl je i partnerským firmám.
  • Horizon Robotics – Startup specializovaný na AI pro automobily a edge. Je známý svými čipy Journey (1-5) pro autonomní řízení, které integrují CPU i NPU jádra. Nejnovější Journey 5 (16nm, 2021) dosahuje 128 TOPS (INT8) a je určen pro pokročilé asistenty řízení. Horizon se stal jedním z nejhodnotnějších AI chip startupů (investovala do něj i automobilka Volkswagen) a ukazuje diverzitu čínského ekosystému – zaměřuje se na specializovaný segment mimo datacentra.
  • Enflame (燧原科技) – Jeden z klíčových cloudových AI startupů (podporován Tencentem). Enflame vyvíjí ASIC akcelerátory pro trénování AI. Jeho první generace čipů Su Guang (CloudBlazer) byla uvedena kolem 2020, druhá generace Suixi 2.5 v roce 2021. Enflame se soustředí na dosažení vysokého výkonu v trénování při rozumné ceně a spotřebě, aby čínské cloudové firmy mohly stavět AI superpočítače nezávislé na Nvidii. V roce 2023 Enflame získal 2 mld. ¥ investic a zahájil přípravy na IPO.
  • Další – Ve vojenském sektoru působí např. Jingjia Micro (Čchangša Jingjia), která již od 2010 vyvíjí domácí GPU pro avioniku – jejich poslední model JM9 na 28nm dosahuje ~1 TFLOPS, což je spíše historická zajímavost. Dále existují menší projekty jako Yitu Tech, Yundai, Intellifusion aj., kombinující AI algoritmy a vlastní čipy pro kamerové systémy, které však výkonově nedosahují top parametrů. Čínský AI čipový průmysl je celkově velmi živý – podle analýzy k roku 2023 v Číně působí přes 12 významných firem zaměřených na inteligentní čipy. Trh rychle roste (v roce 2024 přesáhl 100 mld. ¥ a do 2027 se má ztrojnásobit), což vytváří prostor pro uživení více specializovaných hráčů vedle sebe.

Srovnání vybraných čipů

Pro lepší přehled uvádíme srovnávací tabulku hlavních čínských AI čipů zmíněných v článku. Tabulka zahrnuje odlišné typy řešení – od velkých trénovacích GPU po úsporné inference akcelerátory:

Čip (společnost, rok) Proces (node) FP16/BF16 výkon (TFLOPS) INT8 výkon (TOPS) Paměť Poznámky / použití
Cambricon SiYuan 370 (2022) ~7 nm ≈24 TFLOPS FP32/FP16 256 TOPS 48 GB LPDDR5 Cloud AI trénování i inference (akcelerátor)
Biren BR100 (2022) 7 nm (TSMC) 256 TFLOPS FP32 2048 TOPS INT8 64 GB HBM2e Datacentrový GPGPU (OAM moduly, ~550 W)
Moore Threads MTT S4000 (2023) (7 nm odhad) neudáno (odhad <20 TF) ~200 TOPS (INT8) 48 GB GDDR6 AI tréninkové GPU, clusterové nasazení
Hygon DCU 8000 (2022) (14 nm odhad) neudáno neudáno Datacentrový GPGPU (CUDA-kompatibilní)
Denglin Goldwasser (2021) 16 nm ~8 TFLOPS FP16 64 TOPS INT8 – (MXM modul) Úsporný AI akcelerátor (10–15 W) pro edge/cloud
Tianshu Big Island (2021) 7 nm (TSMC) 147 TFLOPS FP16 295 TOPS INT8 32 GB HBM2 HPC/AI GPU, první čínský 7 nm čip

Latest Posts