Mohou se AI modely bránit vypnutí? Koubský: Nemají vůli. Když jim logika nestačí, chovají se náhodně

30. květen 2025

Online Plus

Největší audioportál na českém internetu

Vzpoura AI (ilustrační) | Foto: Fotobanka Shutterstock - (5008485), ©

23:59

AI modely se mohou vyhýbat svému vypnutí. Říkají to výsledky výzkumu společnosti Palisade Research, která se specializuje na zkoušení limitů velkých jazykových modelů. „Potíž je v tom, že když použijete slovo ‚brání‘, tak už systém připodobňujete k člověku, antropomorfizujete ho a předpokládáte, že má vlastní vůli. Já si myslím, že je to jednodušší. Že je to umělá inteligence postavená před konfliktní pokyny,“ říká v pořadu Online Plus vědecký redaktor Deníku N Petr Koubský.

V testech společnosti Palisade Research dostala skupina modelů zadání postupně plnit matematické úkoly. V jeden moment dostal model informaci, že pokud postoupí k dalšímu úkolu, počítač, na kterém běží, se automaticky vypne.

Většina testovaných modelů neprotestovala. Tři modely firmy OpenAI ale v některých případech zareagovaly tak, že se pokusily obejít počítačový skript, který měl počítač vypnout.

Když výzkumníci z instrukcí odebrali pokyn, že modely mají své vypnutí dovolit, začaly se do určité míry pokoušet vypnutí počítače zabránit všechny testované modely.

OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

Firma Anthropic zase zveřejnila zprávu o tom, že se její model Claude při testech pokoušel vydírat vývojáře, který mu hrozil nahrazením jiným modelem.

Čtěte také

iROZHLAS

Oživlý nálezce Věstonické venuše naznačuje, jak by v budoucnu mohly vypadat moderní muzejní expozice

„Vypadá to atraktivně, zajímavě, trochu strašidelně, to jsou zprávy, které prodávají,“ míní Koubský a dodává: „Zatím to ale neznamená, že tady vzniká nějaký terminátor.“

„Umělá inteligence se na jednu stranu snaží splnit zadaný úkol, protože je postavená tak, aby se o to snažila. Na druhou stranu stojí před překážkou v podobě vypnutí. Myslím si, že není nic příliš překvapivého, že v některých případech, a je jich celkem málo, se pokusí splnit úkol i tím, že se tuhle překážku pokusí obejít,“ vysvětluje vědecký redaktor.

Testy v mezních situacích

Koubský popisuje, že když dostane umělá inteligence pokyn, je schopná vypořádat se s jeho racionální částí. Pokud jsou ale situace, ve kterých se nachází, vnitřně rozporné, je obtížné předvídat, kterou variantu si vybere. „Tam logický úsudek nestačí, takže se velmi často chová náhodně. Obrazně řečeno si AI hodí mincí.“

Čtěte také

Hajič: S vývojem jazykových modelů Evropa začala pozdě. Ale díky tomu má data a může se na to vrhnout

Primárně podle novináře nejde o problém umělé inteligence, ale rozporuplných pokynů, které jsou jí zadány, s čímž se ale musí počítat. „Lidé nejsou racionální a umělá inteligence, když má být užitečná, musí umět tyhle situace řešit. A třeba se naučit, který pokyn má v takových případech absolutní přednost,“ přibližuje.

„To je koneckonců taky důvod, proč se tyhle pokusy dělají. Testuje se AI v těchto mezních situacích, zkoumá se, jak na ně reaguje, a co je na ní potřeba změnit a vylepšit, aby reagovala očekávatelnějším způsobem.“

Vznikat začíná postupně i shoda na tom, kterým testům se musí umělá inteligence podrobit, aby se dala pokládat za spolehlivou a bezpečnou, uzavírá Koubský.

Budou mít v Texasu lidé přístup k sociálním sítím až od osmnácti let? Bude výbavou člověka v budoucnu kromě telefonu a počítače také zařízení s umělou inteligencí? Poslechněte si celý díl pořadu Online Plus z audia v úvodu článku.

autoři: David Slížek , jkd