Koubský: Jazykové modely si stahují data z internetu. Je otázka, zda se tomu tvůrci mohou bránit
Americký soud v případu žaloby na firmu Anthropic konstatoval, že trénovat AI modely na knihách stažených z internetu je možné. Posuzoval stížnost skupiny autorů, podle kterých bylo trénování AI na jejich textech bez jejich dovolení porušením jejich autorských práv. „Dnes je živá otázka, jestli je pak možné jazykový model, který se něco naučil, něco konkrétního odnaučit,“ upozorňuje v pořadu Online Plus vědecký redaktor Deníku N Petr Koubský.
Použití textů bylo podle soudu v souladu s takzvaným fair use. Jde o institut amerického práva, který dovoluje za určitých podmínek používání autorsky chráněných děl i bez příslušné licence.
Anthropic ale u soudu neuspěl stoprocentně. Podle verdiktu mohl díla použít, ale zákony porušil tím, že si knihy ukládal do databáze k dalšímu využití. Řada z nich přitom pocházela z pirátských úložišť.
Čtěte také
Zpočátku se zdálo, že pokud by bylo třeba jazykový model třeba knihy odnaučit, bylo by to téměř nemožné, říká Koubský. „V tuhle chvíli ale je vidět, prokazují to některé nové práce, že to v podstatě jde. Není to jednoduchá věc a výsledek není stoprocentně zaručen. Ale není to zcela nemožné,“ míní.
„Nicméně všechny tyto pokusy, které se zatím prováděly, se týkaly malého množství dat. Vzít šmahem velkou databázi knih a říct ‚na to zapomeň, to jsi nikdy neviděl‘, to podle mě nikdo nezkoušel. A asi by to byl trochu jiný úkol než to, s čím si hráli dosud,“ dodává vědecký redaktor.
Postoje tvůrců
To, že tvůrci velkých jazykových modelů stáhli z internetu veškerá data, která přišla z webových stránek, z diskuzních fór a podobně, je známé z dřívějška. Tvůrci obsahu se k tomu staví různým způsobem.
Někdo se například snaží zamezit robotům, aby využívali jeho nová data. Někdo naopak říká, že je dobré tam zahrnut, i když úplně nesouhlasí s tím, jak data firmy získaly. Jinak se totiž obává, že by se do budoucna mohl stát neviditelným proto, že lidé možná budou stále více informací čerpat právě z AI chatbotů.
Čtěte také
„V tuto chvíli pořád ještě není jiná volba než mezi těmito dvěma možnostmi. V zásadě je to pořád tak, že provozovatelé velkých jazykových modelů si v tomhle směru mohou dělat, co chtějí,“ vysvětluje Koubský. „Pokud se ptáme, jestli se tomu tvůrci měli bránit, musíme se zeptat, jestli vůbec mohou. A jestli budou moci v budoucnu.“
„Pokud by taková možnost vznikla, tak je to potom individuální rozhodnutí,“ tvrdí a pokračuje:
„Jenže v tuto chvíli nevíme, čím se řídit, jaké výhody, nebo nevýhody z toho člověk bude mít, když bude, nebo nebude v tom jazykovém modelu zahrnut.“
„Čili nejrozumější, byť nedobstačující odpověď je asi pokrčit rameny a říct: Zkusme, uvidíme. Ať se každý rozhodne čistě podle citu, protože podle faktů se příliš rozhodovat nemůže, žádná nejsou k dispozici,“ uzavírá.
Jaký vliv na mozek má používání AI chatobotů? Čeká nás v blízké budoucnosti cestování robotaxíky? Poslechněte si celý díl pořadu Online Plus z audia v úvodu článku.
Mohlo by vás zajímat
Nejposlouchanější
Více z pořadu
E-shop Českého rozhlasu
Vždycky jsem si přál ocitnout se v románu Julese Verna. Teď se mi to splnilo.
Václav Žmolík, moderátor


Tajuplný ostrov
Lincolnův ostrov nikdo nikdy na mapě nenašel, a přece ho znají lidé na celém světě. Už déle než sto třicet let na něm prožívají dobrodružství s pěticí trosečníků, kteří na něm našli útočiště, a hlavně nejedno tajemství.