MedGemma je nově představený open-source multimodální model umělé inteligence vyvinutý v rámci Google DeepMind a Google Health (součást Google Research). Oficiálně byl oznámen na konferenci Google I/O 2025 jako „nejvýkonnější otevřený model Googlu pro multimodální porozumění lékařskému textu a obrazům“. Vzniká na základě architektury Gemma 3 (zdrojové transformery) a jeho cílem je usnadnit vývoj zdravotnických AI aplikací. Model MedGemma byl uvolněn jako součást platformy Health AI Developer Foundations; oba jeho hlavní varianty – 4miliardový multimodální model a 27miliardový textový model – jsou nyní dostupné pro vývojáře například na Hugging Face či Google Vertex Model Garden.
Technická architektura
MedGemma vychází z architektury Gemma 3, což je vysoce výkonný čtecí transformátor s podporou obrazu i textu. Dvě verze MedGemmy se liší velikostí a typem vstupu:
-
4B multimodální model – má 4 miliardy parametrů a dokáže zpracovávat text i lékařské obrazy. Používá speciální image-enkodér SigLIP, který byl předtrénován na de-identifikovaných lékařských datech (rentgenové snímky hrudníku, kožní fotografie, oftalmologické snímky, histopatologické řezy atd.). Tento enkodér převádí obrázky do textové reprezentace (každý obrázek normalizovaný na rozlišení 896×896 se převede na 256 tokenů).
-
27B textový model – má 27 miliard parametrů, je optimalizován pro práci s textem a byl trénován výhradně na medicínských textech. Poskytuje hlubší textové porozumění a klinické uvažování, ale neumožňuje vkládat obrazy.
Celkově model akceptuje vstup až o délce 128 000 tokenů (kombinace textu a obrazů) a generuje textový výstup až do 8192 tokenů. MedGemma 4B je dostupný ve dvou variantách – předtrénované (sufix „-pt“) i instrukčně doladěné (sufix „-it“), přičemž instručně doladěná verze bývá lepší jako výchozí bod pro většinu aplikací. MedGemma 27B je k dispozici jako instručně doladěný model. Repozitář s kódem obsahuje i Jupyter notebooky pro rychlý start a jemné doladění.
Klíčové vlastnosti a schopnosti
-
Zpracování lékařských obrazů: MedGemma 4B je trénována na rentgenových snímcích (např. hrudníku), histologických řezech, dermatologických a oftalmologických snímcích. Výsledkem je silná schopnost klasifikace a interpretace lékařských obrazů. Model lze adaptovat na úlohy detekce nemocí, klasifikace nálezů a generování radiologických zpráv.
-
Generování lékařských zpráv a odpovědí: Díky multimodálnímu vstupu dokáže MedGemma generovat popisy obrazových nálezů (např. radiologické závěry) a odpovídat na dotazy týkající se obrázků. Příkladem jsou otázky typu „Co ukazuje tento rentgen?“ nebo „Popiš patologii na tomto snímku“. Model rovněž zvládá sumarizovat klinické dokumenty a odpovídat na medicínské dotazy v přirozeném jazyce.
-
Textové medicínské úlohy: Menší textový model (27B) je specializován na porozumění lékařskému textu a klinické uvažování. Lze jej využít pro interaktivní rozhovory (např. předlékařskou anamnézu), triáž pacientů, podporu klinického rozhodování nebo sumarizaci lékařských záznamů. Všechny varianty modelu MedGemma poskytují kvalitní výchozí řešení – při srovnání s obdobně velkými modely (z Gemma 3 rodiny) dosahují vyšší přesnosti v medicínských úlohách. Například na benchmarku pro klasifikaci stavů na rentgenových snímcích MedGemma 4B dosahuje významně lepšího skóre (F1 = 48.1 na CheXpert) než základní model Gemma 3 4B (F1 = 31.2). Podobně v otázkách o dermatologických obrazech či vizuálním QA model převyšuje předchozí generaci. Předběžné hodnocení na testech klinického uvažování (např. MedQA benchmark) ukazuje, že MedGemma dosahuje výkonu srovnatelného s mnohem většími modely.
Srovnání s jinými modely v medicínské AI
MedGemma je otevřeným modelem, což ji odlišuje od mnoha předchozích špičkových modelů v medicínské AI. Příkladně:
-
Med-PaLM (Google, 2022) a Med-PaLM 2 (2023) – to jsou velké uzavřené modely navržené pro medicínské otázky. První verze Med-PaLM jako první AI překonala 60% hranici u lékařské zkoušky USMLE; Med-PaLM 2 následně dosáhla 86,5% přesnosti na benchmarku MedQA. Jejich kód ale není veřejně dostupný.
-
Med-Gemini (Google, 2024) – multimodální model ze skupiny Gemini, vyvinutý pro medicínu. Na MedQA benchmarku dosáhl 91,1 % přesnosti, čímž překonal předchozí nejlepší výsledek. Podobně jako Med-PaLM ale není distribuován otevřeně.
-
LLaVA-Med (Microsoft, 2023) – otevřený multimodální model (jazyk + obraz) pro biomedicínu. Využívá metodiku založenou na GPT-4 generovaných instrukcích a rozsáhlé datasety biomedical figure-caption z PubMed Central. Autoři uvádějí, že LLaVA-Med při testu na několika standardních medicínských úlohách vizuálního dotazování (VQA) překonává dosavadní stav techniky. Model LLaVA-Med byl v listopadu 2023 uvolněn jako open-source, aby usnadnil další výzkum.
-
BioGPT (Microsoft Research, 2022) – otevřený Transformer model speciálně pro biomedicínský text. Byl natrénován z 15 milionů abstraktů z PubMed a při testech dosáhl rekordních výsledků (např. 78,2% na medicínské QA úloze PubMedQA). BioGPT ale nepracuje s obrazy, pouze s textem.
Na rozdíl od výše zmíněných, MedGemma nabízí oboje: text i lékařské obrazy v jednom modelu, a zároveň je otevřený (za podmínek Google Health AI Developer Foundations). Je relativně kompaktní (4B vs desítky či stovky miliard parametrů) a optimalizovaný právě pro klinické i obrazové úlohy, což může usnadnit jeho praktické nasazení.
Praktické využití v medicíně
MedGemma lze využít v řadě reálných scénářů ve zdravotnictví, především jako asistenční nástroj pro odborníky a studenty medicíny. Mezi hlavní oblasti patří:
-
Klinická podpora: Model může pomáhat při analýze diagnostických snímků – například při hledání patologických nálezů na rentgenových, CT či MRI snímcích a při generování nálezů a doporučení. Rovněž může odpovídat na otázky lékaře o konkrétním obrázku (visual QA) či sumarizovat klinické dokumenty a historii pacienta. Při tom slouží jako pomocný nástroj, nikoli jako konečný soudce – výsledky musí vždy zkontrolovat a interpretovat kvalifikovaný personál.
-
Výzkum: Vývojáři a vědci mohou MedGemmu využít k výzkumným analýzám – například k předběžné klasifikaci velkých sad zdravotnických obrazů, k zpracování textových dat z dokumentace či k vyhledávání souvislostí mezi vizuálními a klinickými informacemi. Otevřená architektura modelu usnadňuje zkoumání a další doladění na speciální dataset pro konkrétní vědecké studie.
-
Vzdělávání: Model lze využít jako interaktivní vzdělávací pomůcku – například k simulaci klinické praxe (fiktivní rozhovory s pacientem, generování klinických případů a testových otázek) či k usnadnění výuky zobrazovací diagnostiky. Studenti medicíny mohou s modelem trénovat rozpoznávání medicínských obrazů nebo formulaci lékařských zpráv. Díky otevřenému přístupu lze také snadno vytvářet nové výukové aplikace či tréninkové sady založené na MedGemmě.
Dostupnost, licence a podmínky použití
MedGemma je distribuována jako open-source model v rámci iniciativy Health AI Developer Foundations. Její modely jsou veřejně dostupné na platformách Hugging Face a Google Vertex Model Garden. Kód repozitáře (včetně ukázkových notebooků) je uvolněn pod licencí Apache 2.0, což umožňuje široké využití i modifikace. Samotný model však podléhá licenčním podmínkám Health AI Developer Foundations Terms of Use (HAI-DEF), které stanovují restrikce pro citlivé a klinické použití. MedGemma je tedy volně použitelná pro vývoj nových aplikací, avšak každé nasazení by mělo odpovídat pravidlům Google pro zdravotnické AI (např. nepoužívat ji jako jediný zdroj informací pro diagnózu pacientů).
Odpovědné využívání a omezení
MedGemma je vyvíjena jako nástroj pro vývojáře a ne jako hotové klinické řešení. Google jasně upozorňuje, že model slouží jako výchozí bod a jeho výstupy nejsou určeny k přímému rozhodování v péči o pacienty. Vývojáři a poskytovatelé služeb musí vždy provést vlastní validaci výsledků a případně model doladit na specifická data, která odpovídají jejich scénáři použití. Mezi hlavní upozornění a bezpečnostní aspekty patří:
-
Nutnost validace: Každý systém postavený na MedGemmě musí být pečlivě otestován na reprezentativních datech. Výstupy modelu by měly být nezávisle ověřovány klinickými odborníky. Bez dodatečné adaptace totiž model nemusí spolehlivě pracovat v jiném kontextu než ve výcvikových datech.
-
Omezení pro klinické použití: Podle oficiálního prohlášení není MedGemma vhodná pro přímé klinické použití bez lidské kontroly – výstupy by se neměly používat k diagnóze, léčbě či jiným klíčovým rozhodnutím bez potvrzení kvalifikovaného lékaře. Dosud nebyla modelová validační sada zaměřena na vícenásobné nebo dlouhodobé sledování pacientů (např. více snímků pacienta v čase) a nevyhodnocovala se pro víceúrovňové konverzační scénáře.
-
Bias a zkreslení: Stejně jako u jiných velkých modelů existuje riziko, že výstupy MedGemmy mohou obsahovat nečekané předpojatosti či chyby. Při adaptaci na konkrétní úlohu je třeba věnovat pozornost správnému výběru a rozmanitosti tréninkových dat (zohledňovat věk, pohlaví, etnicitu, typ zobrazovacího zařízení apod.). Model také mohl během tréninku neúmyslně absorbovat části veřejně dostupných dat (data contamination), takže by neměl být nasazen bez prověření na čerstvých neveřejných datech.
-
Bezpečnostní opatření: MedGemma je podporována komunitou Google, která rovněž doporučuje dodržovat interní zásady pro bezpečné a etické nasazení AI. To zahrnuje např. ochranu soukromí pacientů, zabezpečení lékařských dat a dodržování regulací pro zdravotní péči.
Celkově je MedGemma silným nástrojem s otevřeným kódem, ale její použití vyžaduje zkušenosti s medicínským obsahem i pečlivé procesy validace. Podle Googlu lze model „jemně doladit“ pro specifické potřeby a kombinovat jej s dalším expertním know-how (agentní systémy, vnější znalostní báze apod.). Při zodpovědném nasazení může MedGemma zrychlit vznik nových zdravotnických aplikací, např. podpůrných systémů pro lékaře, nástrojů pro vzdělávání či asistenčních řešení ve výzkumu, přičemž výsledné systémy musí stále fungovat pod dohledem odborníků.
Oficiální dokumentace modelu MedGemma je dostupná na stránkách Google Health AI Developer Foundations a obsahuje detailní technické podklady včetně model card a příkladů použití. GitHub repozitář projektu (google-health/medgemma) je veřejně přístupný na github.com/google-health/medgemma kde najdete kód, notebooky a odkazy na další materiály (včetně odkazu na Hugging Face).
Zdroje a odkazy: Oficiální dokumentace MedGemmy (Health AI Developer Foundations)a GitHub repoposkytují podrobné informace o využití, tréninku a omezeních modelu. Další kontext o výkonech MedGemmy a souvisejících modelech je k dispozici v Google Research blozích a publikacích (Med-PaLM, LLaVA-Med, BioGPT, atd.).