Koubský: Jazykové modely si stahují data z internetu. Je otázka, zda se tomu tvůrci mohou bránit

27. červen 2025

Online Plus

Americký soud v případu žaloby na firmu Anthropic konstatoval, že trénovat AI modely na knihách stažených z internetu je možné. Posuzoval stížnost skupiny autorů, podle kterých bylo trénování AI na jejich textech bez jejich dovolení porušením jejich autorských práv. „Dnes je živá otázka, jestli je pak možné jazykový model, který se něco naučil, něco konkrétního odnaučit,“ upozorňuje v pořadu Online Plus vědecký redaktor Deníku N Petr Koubský.

Použití textů bylo podle soudu v souladu s takzvaným fair use. Jde o institut amerického práva, který dovoluje za určitých podmínek používání autorsky chráněných děl i bez příslušné licence.

Anthropic ale u soudu neuspěl stoprocentně. Podle verdiktu mohl díla použít, ale zákony porušil tím, že si knihy ukládal do databáze k dalšímu využití. Řada z nich přitom pocházela z pirátských úložišť.

Čtěte také

iROZHLAS

BBC hrozí právními kroky proti start-upu Perplexity. Obviňuje ho ze zneužití obsahu pro trénování AI

Zpočátku se zdálo, že pokud by bylo třeba jazykový model třeba knihy odnaučit, bylo by to téměř nemožné, říká Koubský. „V tuhle chvíli ale je vidět, prokazují to některé nové práce, že to v podstatě jde. Není to jednoduchá věc a výsledek není stoprocentně zaručen. Ale není to zcela nemožné,“ míní.

„Nicméně všechny tyto pokusy, které se zatím prováděly, se týkaly malého množství dat. Vzít šmahem velkou databázi knih a říct ‚na to zapomeň, to jsi nikdy neviděl‘, to podle mě nikdo nezkoušel. A asi by to byl trochu jiný úkol než to, s čím si hráli dosud,“ dodává vědecký redaktor.

Postoje tvůrců

To, že tvůrci velkých jazykových modelů stáhli z internetu veškerá data, která přišla z webových stránek, z diskuzních fór a podobně, je známé z dřívějška. Tvůrci obsahu se k tomu staví různým způsobem.

Někdo se například snaží zamezit robotům, aby využívali jeho nová data. Někdo naopak říká, že je dobré tam zahrnut, i když úplně nesouhlasí s tím, jak data firmy získaly. Jinak se totiž obává, že by se do budoucna mohl stát neviditelným proto, že lidé možná budou stále více informací čerpat právě z AI chatbotů.

Čtěte také

Česko žádá odklad pravidel pro AI. Nestíháme, říká zmocněnec Kavalírek. Jourová: Normy jsou potřeba

„V tuto chvíli pořád ještě není jiná volba než mezi těmito dvěma možnostmi. V zásadě je to pořád tak, že provozovatelé velkých jazykových modelů si v tomhle směru mohou dělat, co chtějí,“ vysvětluje Koubský. „Pokud se ptáme, jestli se tomu tvůrci měli bránit, musíme se zeptat, jestli vůbec mohou. A jestli budou moci v budoucnu.“

„Pokud by taková možnost vznikla, tak je to potom individuální rozhodnutí,“ tvrdí a pokračuje:

„Jenže v tuto chvíli nevíme, čím se řídit, jaké výhody, nebo nevýhody z toho člověk bude mít, když bude, nebo nebude v tom jazykovém modelu zahrnut.“

„Čili nejrozumější, byť nedobstačující odpověď je asi pokrčit rameny a říct: Zkusme, uvidíme. Ať se každý rozhodne čistě podle citu, protože podle faktů se příliš rozhodovat nemůže, žádná nejsou k dispozici,“ uzavírá.

Jaký vliv na mozek má používání AI chatobotů? Čeká nás v blízké budoucnosti cestování robotaxíky? Poslechněte si celý díl pořadu Online Plus z audia v úvodu článku.

autoři: David Slížek , jkd

Spustit audio

Všechny díly pořadu na mujRozhlas

Mohlo by vás zajímat

Jak nás naladíte na DABu

E-shop Českého rozhlasu

Vždycky jsem si přál ocitnout se v románu Julese Verna. Teď se mi to splnilo.

Václav Žmolík, moderátor

Tajuplný ostrov

Koupit

Lincolnův ostrov nikdo nikdy na mapě nenašel, a přece ho znají lidé na celém světě. Už déle než sto třicet let na něm prožívají dobrodružství s pěticí trosečníků, kteří na něm našli útočiště, a hlavně nejedno tajemství.

Čtěte také

BBC hrozí právními kroky proti start-upu Perplexity. Obviňuje ho ze zneužití obsahu pro trénování AI

Postoje tvůrců

Čtěte také

Česko žádá odklad pravidel pro AI. Nestíháme, říká zmocněnec Kavalírek. Jourová: Normy jsou potřeba

Mohlo by vás zajímat

Publicista: Generováním obrázků Mijazakiho propagujeme. Právník: Ghibli by mohlo OpenAI žalovat

AI někdy halucinuje a nerozumí kulturnímu zázemí. V tom je stále ve výhodě člověk, říká expert Hajič

Pokud budou školy před umělou inteligencí zavírat oči, dnešní děti na trhu práce neobstojí, varuje expert

Nejposlouchanější

Bratr herce Moučky byl brutální vyšetřovatel StB. „Hluboce se za něj styděl,“ říká historik

„Dáme jedenáct špagátů a tři doživotí.“ Proč Gottwald příteli Slánskému nepomohl?

Putina nikdo nevymění, dokud neskončí jednání o ruských válečných zločinech, odhaduje Kolenovská

Pro Turka je to konečná. Macinka může řídit dvě ministerstva měsíce, soudí novinářka Bastlová

Od smrti Johna Lennona uplynulo 45 let. Víme, kým byl tento hudebník doopravdy?

Více z pořadu

Unie vyšetřuje Google kvůli trénování AI na obsahu jiných webů. Koubský: Jen morální apel nestačí

Pokud sítě nesmažou podvody, budou za ně zodpovědné, navrhuje Unie. Koubský: Větší tlak je dobře

Koubský o chat control: Pořád to může být velký průšvih pro ochranu soukromí 450 milionů Evropanů

Provedla AI první velký hackerský útok? „Bez lidské ruky by to nefungovalo,“ uklidňuje Koubský

E-shop Českého rozhlasu

Vždycky jsem si přál ocitnout se v románu Julese Verna. Teď se mi to splnilo.

Tajuplný ostrov

Vražda v zastoupení

Bláznova smrt

Děkovačky Libuše Švormové