Mohou se AI modely bránit vypnutí? Koubský: Nemají vůli. Když jim logika nestačí, chovají se náhodně

30. květen 2025

Online Plus

AI modely se mohou vyhýbat svému vypnutí. Říkají to výsledky výzkumu společnosti Palisade Research, která se specializuje na zkoušení limitů velkých jazykových modelů. „Potíž je v tom, že když použijete slovo ‚brání‘, tak už systém připodobňujete k člověku, antropomorfizujete ho a předpokládáte, že má vlastní vůli. Já si myslím, že je to jednodušší. Že je to umělá inteligence postavená před konfliktní pokyny,“ říká v pořadu Online Plus vědecký redaktor Deníku N Petr Koubský.

V testech společnosti Palisade Research dostala skupina modelů zadání postupně plnit matematické úkoly. V jeden moment dostal model informaci, že pokud postoupí k dalšímu úkolu, počítač, na kterém běží, se automaticky vypne.

Většina testovaných modelů neprotestovala. Tři modely firmy OpenAI ale v některých případech zareagovaly tak, že se pokusily obejít počítačový skript, který měl počítač vypnout.

Když výzkumníci z instrukcí odebrali pokyn, že modely mají své vypnutí dovolit, začaly se do určité míry pokoušet vypnutí počítače zabránit všechny testované modely.

OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

Firma Anthropic zase zveřejnila zprávu o tom, že se její model Claude při testech pokoušel vydírat vývojáře, který mu hrozil nahrazením jiným modelem.

Čtěte také

iROZHLAS

Oživlý nálezce Věstonické venuše naznačuje, jak by v budoucnu mohly vypadat moderní muzejní expozice

„Vypadá to atraktivně, zajímavě, trochu strašidelně, to jsou zprávy, které prodávají,“ míní Koubský a dodává: „Zatím to ale neznamená, že tady vzniká nějaký terminátor.“

„Umělá inteligence se na jednu stranu snaží splnit zadaný úkol, protože je postavená tak, aby se o to snažila. Na druhou stranu stojí před překážkou v podobě vypnutí. Myslím si, že není nic příliš překvapivého, že v některých případech, a je jich celkem málo, se pokusí splnit úkol i tím, že se tuhle překážku pokusí obejít,“ vysvětluje vědecký redaktor.

Testy v mezních situacích

Koubský popisuje, že když dostane umělá inteligence pokyn, je schopná vypořádat se s jeho racionální částí. Pokud jsou ale situace, ve kterých se nachází, vnitřně rozporné, je obtížné předvídat, kterou variantu si vybere. „Tam logický úsudek nestačí, takže se velmi často chová náhodně. Obrazně řečeno si AI hodí mincí.“

Čtěte také

Hajič: S vývojem jazykových modelů Evropa začala pozdě. Ale díky tomu má data a může se na to vrhnout

Primárně podle novináře nejde o problém umělé inteligence, ale rozporuplných pokynů, které jsou jí zadány, s čímž se ale musí počítat. „Lidé nejsou racionální a umělá inteligence, když má být užitečná, musí umět tyhle situace řešit. A třeba se naučit, který pokyn má v takových případech absolutní přednost,“ přibližuje.

„To je koneckonců taky důvod, proč se tyhle pokusy dělají. Testuje se AI v těchto mezních situacích, zkoumá se, jak na ně reaguje, a co je na ní potřeba změnit a vylepšit, aby reagovala očekávatelnějším způsobem.“

Vznikat začíná postupně i shoda na tom, kterým testům se musí umělá inteligence podrobit, aby se dala pokládat za spolehlivou a bezpečnou, uzavírá Koubský.

Budou mít v Texasu lidé přístup k sociálním sítím až od osmnácti let? Bude výbavou člověka v budoucnu kromě telefonu a počítače také zařízení s umělou inteligencí? Poslechněte si celý díl pořadu Online Plus z audia v úvodu článku.

autoři: David Slížek , jkd

Spustit audio

Všechny díly pořadu na mujRozhlas

Mohlo by vás zajímat

Jak nás naladíte na DABu

E-shop Českého rozhlasu

Hurvínek? A s poslední rozhlasovou nahrávkou Josefa Skupy? Teda taťuldo, to zírám...

Jan Kovařík, moderátor Českého rozhlasu Dvojka

Hurvínkovy příhody 5

Koupit

„Raději malé uměníčko dobře, nežli velké špatně.“ Josef Skupa, zakladatel Divadla Spejbla a Hurvínka

Čtěte také

Oživlý nálezce Věstonické venuše naznačuje, jak by v budoucnu mohly vypadat moderní muzejní expozice

Testy v mezních situacích

Čtěte také

Hajič: S vývojem jazykových modelů Evropa začala pozdě. Ale díky tomu má data a může se na to vrhnout

Mohlo by vás zajímat

To, co nám trvalo hodiny nebo dny, teď s umělou inteligencí zvládneme za míň než vteřinu, říká vědec

Vyhladí lidstvo umělá inteligence? „Málo pravděpodobné, ale ne úplné sci-fi,“ obává se Koubský

Rizika AI si uvědomujeme, tvrdí novinář. Černý scénář o konci lidstva považuje za sci-fi

Nejposlouchanější

Konec Velkého metaře. Jak dopis pro Slánského odstartoval největší politický proces v Československu

Pečinka: Kuba svůj odchod z ODS domluvil s Babišem. Sází na to, že SPD a Motoristé časem odpadnou

Překrásné Rusko budoucnosti? Sny ruské opozice o svržení Putina

Venezuela je ráj na zemi, ale jen pro někoho. Její vláda je drogová banda, popisuje novinář Freisler

Vrbětice. Ruskou operaci, která změnila Česko, rozkrývá Jaroslav Spurný

Více z pořadu

Pokud sítě nesmažou podvody, budou za ně zodpovědné, navrhuje Unie. Koubský: Větší tlak je dobře

Koubský o chat control: Pořád to může být velký průšvih pro ochranu soukromí 450 milionů Evropanů

Provedla AI první velký hackerský útok? „Bez lidské ruky by to nefungovalo,“ uklidňuje Koubský

Seznam obnovuje síť Lidé.cz. „Český Facebook se z toho nestane, jsou realisté,“ usuzuje Koubský

E-shop Českého rozhlasu

Hurvínek? A s poslední rozhlasovou nahrávkou Josefa Skupy? Teda taťuldo, to zírám...

Hurvínkovy příhody 5

Moci bez nemoci

Koho mi nadělil Tobogan

50 moravských pověstí