Hajič: S vývojem jazykových modelů Evropa začala pozdě. Ale díky tomu má data a může se na to vrhnout

Poslechněte si celý rozhovor s Janem Hajičem z Matematicko-fyzikální fakulty Univerzity Karlovy
Evropská unie chce mít svůj vlastní velký jazykový model. Bude se jmenovat OpenEuroLLM a na jeho vývoji se podílí dvacet podniků, výzkumných institucí a superpočítačových center z celé Evropy. „Měl by umět všechny evropské jazyky, a to ve vyšší kvalitě než běžné modely, které přišly ze Spojených států anebo z Číny,“ říká pro Český rozhlas Plus vedoucí projektu Jan Hajič. Model má také umět jazyky spojenců Unie, třeba Norska, nebo obchodních partnerů, jako jsou Čína a Indie.
Hajič uznává, že evropský vývoj přichází se zpožděním po velkých projektech Googlu nebo OpenAI. Vnímá to jako nevýhoda, ale zároveň i jako výhoda, protože výzkumníci mohou čerpat ze zkušeností svých kolegů.
Čtěte také
„Za tu dobu se posunuly jak technologie, které jsou velmi často k dispozici jako takzvané open source, to znamená, že je můžeme volně používat. A za druhé dnes máme mnohem více textů v dobré kvalitě,“ popisuje vědec. „Je samozřejmě velká výhoda, že máme data a můžeme se rovnou vrhnout na výrobu jazykových modelů.“
Blokování dat
OpenEuroLLM by měl být otevřený a měl by se vyhýbat cenzuře a předsudkům. To znamená, že nebude trénován na textech, které jsou neetické nebo obsahují nepřesné či zavádějící informace, ujišťuje Hajič.
„Filtrování na úrovni dat nejde udělat úplně stoprocentně. Modely se nejprve vyrobí a pak na to jsou evaluační metody, kdy se bude zjišťovat, jak moc jednoduché je ten model přimět, aby dělal něco neetického,“ přibližuje.
Čtěte také
Cílem projektu je vyrobit základní model, na který později naváže sesterská iniciativa, jež naučí model interagovat a adaptuje jej na specifické obory.
Hlavním problémem je jednak nedostatečná kapacita dostupných datových center, ale také blokování obsahu některými weby.
„Data, která jsou momentálně blokovaná pro použití v umělé inteligenci, jsou obvykle ta kvalitnější data z velkých nakladatelství, která tomu rozumějí a blokování provádějí,“ podotýká Hajič. „Data, která používáme, toto respektují, a tím pádem budeme moci být otevření a ukazovat, na jakých datech jsme model dělali.“
Není čas na slepé uličky
Komunita vědců zabývající se umělou inteligencí je v Česku podle Hajiče silná. A pro projekt je důležité, že iniciativa vznikla od jednotlivých podniků a výzkumníků, protože zastřešující instituci, která by se mohla ve vývoji AI angažovat, v Česku nemáme.
„Je to proto, že u nás ani v Evropě není dostatečná kapacita. S tím, co máme k dispozici velký model nevyrobíte,“ přiznává Hajič. „Iniciativa tak vznikla zdola. Oslovili mě z Německa, z Finska a chtěli jsme tam mít lidi, kteří mají zkušenost s opravdu velkými modely.“
Čtěte také
Při posuzování projektu je z hlediska evropské politiky důležitý i ekologický rozměr technologie, která je kvůli potřebě chlazení velmi energeticky náročná. Výhodné je zejména partnerství s finskými institucemi, které využívají nízkých teplot a chladných řek, aby zátěž snížily.
Ke spolupráci výzkumníci oslovili i řadu firem, některé z nich odmítly. Seznam odborníků spolupracujících na projektu se ale ještě může rozšiřovat. Důležitá bude hlavně znalost velkých komerčních modelů, míní expert.
„To, jak modely rostou, není jenom o přidávání výpočetní kapacity. Nefunguje to úplně stejně, proto je zkušenost cenná,“ uzavírá Hajič. „Není na světě mnoho lidí, kteří mají zkušenost s tak velkými modely. Takže se budeme snažit, abychom znalostí mohli využít a vyvarovali se chyb, protože při obrovské kapacitě, kterou na to potřebujeme, není na mnoho slepých uliček čas.“
Jak výzkumníci získávají data pro model? A mohou hodnoty tvůrců ovlivňovat podobu výsledného modelu? Dozvíte se v záznamu celého rozhovoru. Ptá se Šárka Fenyková.
Související
-
Čeká nás Divoký západ s umělou inteligencí. Evropa by měla vyvinout řídicí systém, vyzývá odborník
Jak čelit urychlování vývoje umělé inteligence tlačeného korporacemi i americkou vládou? Investovat do vlastních jazykových modelů už se Evropě nevyplatí, míní Romportl.
-
Vědec Kulveit: AI může mít vlastní motivace a přestat být vstřícná k lidem. Regulace je nutná
„Plusy i rizika jsou ohromně velké. Jsem optimista v tom, že si myslím, že to přináší spíš výzvy,“ říká Jan Kulveit z Centra pro teoretická studia UK a Akademie věd ČR.
-
Ovládne nás umělá inteligence? Realita je nudnější, říká odborník na AI Tomáš Mikolov
Tomáš Mikolov patří mezi nejuznávanější vědce v oboru umělé inteligence. Díky jeho technikám vylepšila například společnost Google překladač. Je na místě mít z AI obavy?
Více z pořadu
E-shop Českého rozhlasu
Víte, kde spočívá náš společný ukrytý poklad? Blíž, než si myslíte!
Jan Rosák, moderátor


Slovo nad zlato
Víte, jaký vztah mají politici a policisté? Kde se vzalo slovo Vánoce? Za jaké slovo vděčí Turci husitům? Že se mladým paním původně zapalovalo něco úplně jiného než lýtka? Že segedínský guláš nemá se Segedínem nic společného a že známe na den přesně vznik slova dálnice? Takových objevů je plná knížka Slovo nad zlato. Tvoří ji výběr z rozhovorů moderátora Jana Rosáka s dřívějším ředitelem Ústavu pro jazyk český docentem Karlem Olivou, které vysílal Český rozhlas Dvojka.