Mohou se AI modely bránit vypnutí? Koubský: Nemají vůli. Když jim logika nestačí, chovají se náhodně

30. květen 2025

Největší audioportál na českém internetu

Vzpoura AI (ilustrační) | Foto: Fotobanka Shutterstock - (5008485), ©

„Zatím to neznamená, že tady vzniká nějaký terminátor.“ Poslechněte si celý díl pořadu Online Plus s vědeckým redaktorem Deníku N Petrem Koubským

AI modely se mohou vyhýbat svému vypnutí. Říkají to výsledky výzkumu společnosti Palisade Research, která se specializuje na zkoušení limitů velkých jazykových modelů. „Potíž je v tom, že když použijete slovo ‚brání‘, tak už systém připodobňujete k člověku, antropomorfizujete ho a předpokládáte, že má vlastní vůli. Já si myslím, že je to jednodušší. Že je to umělá inteligence postavená před konfliktní pokyny,“ říká v pořadu Online Plus vědecký redaktor Deníku N Petr Koubský.

V testech společnosti Palisade Research dostala skupina modelů zadání postupně plnit matematické úkoly. V jeden moment dostal model informaci, že pokud postoupí k dalšímu úkolu, počítač, na kterém běží, se automaticky vypne.

Většina testovaných modelů neprotestovala. Tři modely firmy OpenAI ale v některých případech zareagovaly tak, že se pokusily obejít počítačový skript, který měl počítač vypnout.

Když výzkumníci z instrukcí odebrali pokyn, že modely mají své vypnutí dovolit, začaly se do určité míry pokoušet vypnutí počítače zabránit všechny testované modely.

Firma Anthropic zase zveřejnila zprávu o tom, že se její model Claude při testech pokoušel vydírat vývojáře, který mu hrozil nahrazením jiným modelem.

Čtěte také

„Vypadá to atraktivně, zajímavě, trochu strašidelně, to jsou zprávy, které prodávají,“ míní Koubský a dodává: „Zatím to ale neznamená, že tady vzniká nějaký terminátor.“

„Umělá inteligence se na jednu stranu snaží splnit zadaný úkol, protože je postavená tak, aby se o to snažila. Na druhou stranu stojí před překážkou v podobě vypnutí. Myslím si, že není nic příliš překvapivého, že v některých případech, a je jich celkem málo, se pokusí splnit úkol i tím, že se tuhle překážku pokusí obejít,“ vysvětluje vědecký redaktor.

Testy v mezních situacích

Koubský popisuje, že když dostane umělá inteligence pokyn, je schopná vypořádat se s jeho racionální částí. Pokud jsou ale situace, ve kterých se nachází, vnitřně rozporné, je obtížné předvídat, kterou variantu si vybere. „Tam logický úsudek nestačí, takže se velmi často chová náhodně. Obrazně řečeno si AI hodí mincí.“

Čtěte také

Primárně podle novináře nejde o problém umělé inteligence, ale rozporuplných pokynů, které jsou jí zadány, s čímž se ale musí počítat. „Lidé nejsou racionální a umělá inteligence, když má být užitečná, musí umět tyhle situace řešit. A třeba se naučit, který pokyn má v takových případech absolutní přednost,“ přibližuje.

„To je koneckonců taky důvod, proč se tyhle pokusy dělají. Testuje se AI v těchto mezních situacích, zkoumá se, jak na ně reaguje, a co je na ní potřeba změnit a vylepšit, aby reagovala očekávatelnějším způsobem.“

Vznikat začíná postupně i shoda na tom, kterým testům se musí umělá inteligence podrobit, aby se dala pokládat za spolehlivou a bezpečnou, uzavírá Koubský.

Budou mít v Texasu lidé přístup k sociálním sítím až od osmnácti let? Bude výbavou člověka v budoucnu kromě telefonu a počítače také zařízení s umělou inteligencí? Poslechněte si celý díl pořadu Online Plus z audia v úvodu článku.

autoři: David Slížek , jkd

Mohlo by vás zajímat

Nejposlouchanější

Více z pořadu

E-shop Českého rozhlasu

Přijměte pozvání na úsměvný doušek moudré člověčiny.

František Novotný, moderátor

setkani_2100x1400.jpg

Setkání s Karlem Čapkem

Koupit

Literární fikce, pokus přiblížit literární nadsázkou spisovatele, filozofa, ale hlavně člověka Karla Čapka trochu jinou formou.