Hajič: S vývojem jazykových modelů Evropa začala pozdě. Ale díky tomu má data a může se na to vrhnout

28. březen 2025

Interview Plus

Evropská unie chce mít svůj vlastní velký jazykový model. Bude se jmenovat OpenEuroLLM a na jeho vývoji se podílí dvacet podniků, výzkumných institucí a superpočítačových center z celé Evropy. „Měl by umět všechny evropské jazyky, a to ve vyšší kvalitě než běžné modely, které přišly ze Spojených států anebo z Číny,“ říká pro Český rozhlas Plus vedoucí projektu Jan Hajič. Model má také umět jazyky spojenců Unie, třeba Norska, nebo obchodních partnerů, jako jsou Čína a Indie.

Hajič uznává, že evropský vývoj přichází se zpožděním po velkých projektech Googlu nebo OpenAI. Vnímá to jako nevýhoda, ale zároveň i jako výhoda, protože výzkumníci mohou čerpat ze zkušeností svých kolegů.

Čtěte také

AI někdy halucinuje a nerozumí kulturnímu zázemí. V tom je stále ve výhodě člověk, říká expert Hajič

„Za tu dobu se posunuly jak technologie, které jsou velmi často k dispozici jako takzvané open source, to znamená, že je můžeme volně používat. A za druhé dnes máme mnohem více textů v dobré kvalitě,“ popisuje vědec. „Je samozřejmě velká výhoda, že máme data a můžeme se rovnou vrhnout na výrobu jazykových modelů.“

Blokování dat

OpenEuroLLM by měl být otevřený a měl by se vyhýbat cenzuře a předsudkům. To znamená, že nebude trénován na textech, které jsou neetické nebo obsahují nepřesné či zavádějící informace, ujišťuje Hajič.

„Filtrování na úrovni dat nejde udělat úplně stoprocentně. Modely se nejprve vyrobí a pak na to jsou evaluační metody, kdy se bude zjišťovat, jak moc jednoduché je ten model přimět, aby dělal něco neetického,“ přibližuje.

Čtěte také

DeepSeek způsobil paniku. Celý sektor je pod tlakem, pořád hledáme využití, kritizuje novinář

Cílem projektu je vyrobit základní model, na který později naváže sesterská iniciativa, jež naučí model interagovat a adaptuje jej na specifické obory.

Hlavním problémem je jednak nedostatečná kapacita dostupných datových center, ale také blokování obsahu některými weby.

„Data, která jsou momentálně blokovaná pro použití v umělé inteligenci, jsou obvykle ta kvalitnější data z velkých nakladatelství, která tomu rozumějí a blokování provádějí,“ podotýká Hajič. „Data, která používáme, toto respektují, a tím pádem budeme moci být otevření a ukazovat, na jakých datech jsme model dělali.“

Není čas na slepé uličky

Komunita vědců zabývající se umělou inteligencí je v Česku podle Hajiče silná. A pro projekt je důležité, že iniciativa vznikla od jednotlivých podniků a výzkumníků, protože zastřešující instituci, která by se mohla ve vývoji AI angažovat, v Česku nemáme.

„Je to proto, že u nás ani v Evropě není dostatečná kapacita. S tím, co máme k dispozici velký model nevyrobíte,“ přiznává Hajič. „Iniciativa tak vznikla zdola. Oslovili mě z Německa, z Finska a chtěli jsme tam mít lidi, kteří mají zkušenost s opravdu velkými modely.“

Čtěte také

Od technologických firem se nedá čekat samoregulace. Na AI zatím příliš nevydělávají, poukazuje Holý

Při posuzování projektu je z hlediska evropské politiky důležitý i ekologický rozměr technologie, která je kvůli potřebě chlazení velmi energeticky náročná. Výhodné je zejména partnerství s finskými institucemi, které využívají nízkých teplot a chladných řek, aby zátěž snížily.

Ke spolupráci výzkumníci oslovili i řadu firem, některé z nich odmítly. Seznam odborníků spolupracujících na projektu se ale ještě může rozšiřovat. Důležitá bude hlavně znalost velkých komerčních modelů, míní expert.

„To, jak modely rostou, není jenom o přidávání výpočetní kapacity. Nefunguje to úplně stejně, proto je zkušenost cenná,“ uzavírá Hajič. „Není na světě mnoho lidí, kteří mají zkušenost s tak velkými modely. Takže se budeme snažit, abychom znalostí mohli využít a vyvarovali se chyb, protože při obrovské kapacitě, kterou na to potřebujeme, není na mnoho slepých uliček čas.“

Jak výzkumníci získávají data pro model? A mohou hodnoty tvůrců ovlivňovat podobu výsledného modelu? Dozvíte se v záznamu celého rozhovoru. Ptá se Šárka Fenyková.

autoři: Šárka Fenyková , esta

Spustit audio

Všechny díly pořadu na mujRozhlas

Mohlo by vás zajímat

Jak nás naladíte na DABu

E-shop Českého rozhlasu

Kdo jste vy? Klára, nebo učitel?

Tereza Kostková, moderátorka ČRo Dvojka

Jak Klára obrátila všechno vzhůru nohama

Koupit

Knížka režiséra a herce Jakuba Nvoty v překladu Terezy Kostkové předkládá malým i velkým čtenářům dialogy malé Kláry a učitele o světě, který se dá vnímat docela jinak, než jak se píše v učebnicích.

Čtěte také

AI někdy halucinuje a nerozumí kulturnímu zázemí. V tom je stále ve výhodě člověk, říká expert Hajič

Blokování dat

Čtěte také

DeepSeek způsobil paniku. Celý sektor je pod tlakem, pořád hledáme využití, kritizuje novinář

Není čas na slepé uličky

Čtěte také

Od technologických firem se nedá čekat samoregulace. Na AI zatím příliš nevydělávají, poukazuje Holý

mujRozhlas

Mohlo by vás zajímat

Čeká nás Divoký západ s umělou inteligencí. Evropa by měla vyvinout řídicí systém, vyzývá odborník

Vědec Kulveit: AI může mít vlastní motivace a přestat být vstřícná k lidem. Regulace je nutná

Ovládne nás umělá inteligence? Realita je nudnější, říká odborník na AI Tomáš Mikolov

mujRozhlas

Nejposlouchanější

Pavel Kosatík: O tom Benešovi. Kritický portrét prezidenta, který popřel svůj vlastní odkaz

Pan Nikdo jede do Hollywoodu. Příběh Putinova tichého kritika Pavla Talankina

„Byla popravena v květovaných šatech a sandálkách.“ Nenávist Čechů a Němců zkoumá historik Kyncl

Kosatík: Bez Beneše by nebylo Československo a v roce 1938 naopak bylo. Nebyl rváč, Masaryk by řval

Jakub Szántó: Mezi mlýnskými kameny. Gaza a její příběh vyprávěný zkušeným reportérem

Více z pořadu

Hizballáh pro Izrael představuje větší nebezpečí než Írán, válka se může protáhnout, říká novinář

Nemáme nerostné suroviny, musíme stavět obnovitelné zdroje. Čína je na tom stejně, podotýká expert

Merz a Babiš si jsou podobní, česká a německá politická kultura se ale vzdalují, míní Lizcová

Na vládě panuje ohledně rušení poplatků chaos, bez debaty s médii vznikne paskvil, varuje Talíř

E-shop Českého rozhlasu

Kdo jste vy? Klára, nebo učitel?

Jak Klára obrátila všechno vzhůru nohama

O čem skály mlčí

Ranní špek 2

Půlnoční párty S+Š