Hajič: S vývojem jazykových modelů Evropa začala pozdě. Ale díky tomu má data a může se na to vrhnout

28. březen 2025

Největší audioportál na českém internetu

Jan Hajič, st., výpočetní lingvista, zástupce ředitele Ústavu formální a aplikované lingvistiky na Univerzitě Karlově | Foto: Věra Luptáková, Český rozhlas

Poslechněte si celý rozhovor s Janem Hajičem z Matematicko-fyzikální fakulty Univerzity Karlovy

Evropská unie chce mít svůj vlastní velký jazykový model. Bude se jmenovat OpenEuroLLM a na jeho vývoji se podílí dvacet podniků, výzkumných institucí a superpočítačových center z celé Evropy. „Měl by umět všechny evropské jazyky, a to ve vyšší kvalitě než běžné modely, které přišly ze Spojených států anebo z Číny,“ říká pro Český rozhlas Plus vedoucí projektu Jan Hajič. Model má také umět jazyky spojenců Unie, třeba Norska, nebo obchodních partnerů, jako jsou Čína a Indie.

Hajič uznává, že evropský vývoj přichází se zpožděním po velkých projektech Googlu nebo OpenAI. Vnímá to jako nevýhoda, ale zároveň i jako výhoda, protože výzkumníci mohou čerpat ze zkušeností svých kolegů.

Čtěte také

„Za tu dobu se posunuly jak technologie, které jsou velmi často k dispozici jako takzvané open source, to znamená, že je můžeme volně používat. A za druhé dnes máme mnohem více textů v dobré kvalitě,“ popisuje vědec. „Je samozřejmě velká výhoda, že máme data a můžeme se rovnou vrhnout na výrobu jazykových modelů.“

Blokování dat

OpenEuroLLM by měl být otevřený a měl by se vyhýbat cenzuře a předsudkům. To znamená, že nebude trénován na textech, které jsou neetické nebo obsahují nepřesné či zavádějící informace, ujišťuje Hajič.

„Filtrování na úrovni dat nejde udělat úplně stoprocentně. Modely se nejprve vyrobí a pak na to jsou evaluační metody, kdy se bude zjišťovat, jak moc jednoduché je ten model přimět, aby dělal něco neetického,“ přibližuje.

Čtěte také

Cílem projektu je vyrobit základní model, na který později naváže sesterská iniciativa, jež naučí model interagovat a adaptuje jej na specifické obory.

Hlavním problémem je jednak nedostatečná kapacita dostupných datových center, ale také blokování obsahu některými weby.

„Data, která jsou momentálně blokovaná pro použití v umělé inteligenci, jsou obvykle ta kvalitnější data z velkých nakladatelství, která tomu rozumějí a blokování provádějí,“ podotýká Hajič. „Data, která používáme, toto respektují, a tím pádem budeme moci být otevření a ukazovat, na jakých datech jsme model dělali.“

Není čas na slepé uličky

Komunita vědců zabývající se umělou inteligencí je v Česku podle Hajiče silná. A pro projekt je důležité, že iniciativa vznikla od jednotlivých podniků a výzkumníků, protože zastřešující instituci, která by se mohla ve vývoji AI angažovat, v Česku nemáme.

„Je to proto, že u nás ani v Evropě není dostatečná kapacita. S tím, co máme k dispozici velký model nevyrobíte,“ přiznává Hajič. „Iniciativa tak vznikla zdola. Oslovili mě z Německa, z Finska a chtěli jsme tam mít lidi, kteří mají zkušenost s opravdu velkými modely.“

Čtěte také

Při posuzování projektu je z hlediska evropské politiky důležitý i ekologický rozměr technologie, která je kvůli potřebě chlazení velmi energeticky náročná. Výhodné je zejména partnerství s finskými institucemi, které využívají nízkých teplot a chladných řek, aby zátěž snížily.

Ke spolupráci výzkumníci oslovili i řadu firem, některé z nich odmítly. Seznam odborníků spolupracujících na projektu se ale ještě může rozšiřovat. Důležitá bude hlavně znalost velkých komerčních modelů, míní expert.

„To, jak modely rostou, není jenom o přidávání výpočetní kapacity. Nefunguje to úplně stejně, proto je zkušenost cenná,“ uzavírá Hajič. „Není na světě mnoho lidí, kteří mají zkušenost s tak velkými modely. Takže se budeme snažit, abychom znalostí mohli využít a vyvarovali se chyb, protože při obrovské kapacitě, kterou na to potřebujeme, není na mnoho slepých uliček čas.“

Jak výzkumníci získávají data pro model? A mohou hodnoty tvůrců ovlivňovat podobu výsledného modelu? Dozvíte se v záznamu celého rozhovoru. Ptá se Šárka Fenyková.

autoři: Šárka Fenyková , esta

Související

Více z pořadu

E-shop Českého rozhlasu

Víte, kde spočívá náš společný ukrytý poklad? Blíž, než si myslíte!

Jan Rosák, moderátor

slovo_nad_zlato.jpg

Slovo nad zlato

Koupit

Víte, jaký vztah mají politici a policisté? Kde se vzalo slovo Vánoce? Za jaké slovo vděčí Turci husitům? Že se mladým paním původně zapalovalo něco úplně jiného než lýtka? Že segedínský guláš nemá se Segedínem nic společného a že známe na den přesně vznik slova dálnice? Takových objevů je plná knížka Slovo nad zlato. Tvoří ji výběr z rozhovorů moderátora Jana Rosáka s dřívějším ředitelem Ústavu pro jazyk český docentem Karlem Olivou, které vysílal Český rozhlas Dvojka.