Mohou se AI modely bránit vypnutí? Koubský: Nemají vůli. Když jim logika nestačí, chovají se náhodně
AI modely se mohou vyhýbat svému vypnutí. Říkají to výsledky výzkumu společnosti Palisade Research, která se specializuje na zkoušení limitů velkých jazykových modelů. „Potíž je v tom, že když použijete slovo ‚brání‘, tak už systém připodobňujete k člověku, antropomorfizujete ho a předpokládáte, že má vlastní vůli. Já si myslím, že je to jednodušší. Že je to umělá inteligence postavená před konfliktní pokyny,“ říká v pořadu Online Plus vědecký redaktor Deníku N Petr Koubský.
V testech společnosti Palisade Research dostala skupina modelů zadání postupně plnit matematické úkoly. V jeden moment dostal model informaci, že pokud postoupí k dalšímu úkolu, počítač, na kterém běží, se automaticky vypne.
Většina testovaných modelů neprotestovala. Tři modely firmy OpenAI ale v některých případech zareagovaly tak, že se pokusily obejít počítačový skript, který měl počítač vypnout.
Když výzkumníci z instrukcí odebrali pokyn, že modely mají své vypnutí dovolit, začaly se do určité míry pokoušet vypnutí počítače zabránit všechny testované modely.
Firma Anthropic zase zveřejnila zprávu o tom, že se její model Claude při testech pokoušel vydírat vývojáře, který mu hrozil nahrazením jiným modelem.
Čtěte také
„Vypadá to atraktivně, zajímavě, trochu strašidelně, to jsou zprávy, které prodávají,“ míní Koubský a dodává: „Zatím to ale neznamená, že tady vzniká nějaký terminátor.“
„Umělá inteligence se na jednu stranu snaží splnit zadaný úkol, protože je postavená tak, aby se o to snažila. Na druhou stranu stojí před překážkou v podobě vypnutí. Myslím si, že není nic příliš překvapivého, že v některých případech, a je jich celkem málo, se pokusí splnit úkol i tím, že se tuhle překážku pokusí obejít,“ vysvětluje vědecký redaktor.
Testy v mezních situacích
Koubský popisuje, že když dostane umělá inteligence pokyn, je schopná vypořádat se s jeho racionální částí. Pokud jsou ale situace, ve kterých se nachází, vnitřně rozporné, je obtížné předvídat, kterou variantu si vybere. „Tam logický úsudek nestačí, takže se velmi často chová náhodně. Obrazně řečeno si AI hodí mincí.“
Čtěte také
Primárně podle novináře nejde o problém umělé inteligence, ale rozporuplných pokynů, které jsou jí zadány, s čímž se ale musí počítat. „Lidé nejsou racionální a umělá inteligence, když má být užitečná, musí umět tyhle situace řešit. A třeba se naučit, který pokyn má v takových případech absolutní přednost,“ přibližuje.
„To je koneckonců taky důvod, proč se tyhle pokusy dělají. Testuje se AI v těchto mezních situacích, zkoumá se, jak na ně reaguje, a co je na ní potřeba změnit a vylepšit, aby reagovala očekávatelnějším způsobem.“
Vznikat začíná postupně i shoda na tom, kterým testům se musí umělá inteligence podrobit, aby se dala pokládat za spolehlivou a bezpečnou, uzavírá Koubský.
Budou mít v Texasu lidé přístup k sociálním sítím až od osmnácti let? Bude výbavou člověka v budoucnu kromě telefonu a počítače také zařízení s umělou inteligencí? Poslechněte si celý díl pořadu Online Plus z audia v úvodu článku.
Mohlo by vás zajímat
Nejposlouchanější
Více z pořadu
E-shop Českého rozhlasu
Kdo jste vy? Klára, nebo učitel?
Tereza Kostková, moderátorka ČRo Dvojka


Jak Klára obrátila všechno vzhůru nohama
Knížka režiséra a herce Jakuba Nvoty v překladu Terezy Kostkové předkládá malým i velkým čtenářům dialogy malé Kláry a učitele o světě, který se dá vnímat docela jinak, než jak se píše v učebnicích.