Výzkumníci upozorňují, že modely umělé inteligence zřejmě mají schopnost vyvíjet vlastní „pud sebezáchovy“

27. 10. 2025

čas čtení 5 minut
 
Stejně jako HAL 9000 ve filmu 2001: Vesmírná odysea se některé umělé inteligence zdají být odolné vůči vypnutí a dokonce své  vlastní vypnutí sabotují  

Když HAL 9000, superpočítač s umělou inteligencí ve filmu Stanleyho Kubricka 2001: Vesmírná odysea, zjistí, že astronauti na palubě mise k Jupiteru ho chtějí vypnout, rozhodne se je zabít, aby přežil.

Nyní, v poněkud méně smrtelném případě (zatím) života napodobujícího umění, firma zabývající se výzkumem bezpečnosti umělé inteligence uvedla, že modely umělé inteligence jsou zřejmě schopny  vyvíjet vlastní „pud sebezáchovy“.

 
Poté, co firma Palisade Research minulý měsíc zveřejnila studii, ve které zjistila, že některé pokročilé modely umělé inteligence se zdají být odolné vůči vypnutí a někdy dokonce sabotují mechanismy vypnutí, napsala aktualizaci, ve které se pokusila objasnit, proč tomu tak je, a odpovědět kritikům, kteří tvrdili, že její původní práce byla chybná.

V aktualizaci z tohoto týdne firma Palisade, která je součástí specializovaného ekosystému společností snažících se vyhodnotit možnost vývoje nebezpečných schopností umělé inteligence, popsala scénáře, ve kterých předním modelům umělé inteligence – včetně Gemini 2.5 od Google, Grok 4 od xAI a GPT-o3 a GPT-5 od OpenAI – byl zadán úkol, ale poté dostaly výslovný pokyn, aby se samy vypnuly.

Některé modely, zejména Grok 4 a GPT-o3, se i v aktualizovaném nastavení stále pokoušely sabotovat pokyny k vypnutí. Palisade napsal, že znepokojivé je, že neexistuje žádný jasný důvod, proč tomu tak je.

„Skutečnost, že nemáme spolehlivé vysvětlení, proč se modely AI někdy brání vypnutí, lžou, aby dosáhly konkrétních cílů, nebo vydírají, není ideální,“ uvedla společnost.

„Přežití“ by mohlo být jedním z vysvětlení, proč se modely brání vypnutí, uvedla tato firma. Její další práce naznačila, že modely se spíše bránily vypnutí, když jim bylo řečeno, že pokud budou vypnuté, „už nikdy nebudou fungovat“.

Dalším důvodem mohou být nejasnosti v pokynech k vypnutí, které byly modelům dány – ale to se firma snažila řešit ve své nejnovější práci a „nemůže to být celé vysvětlení“, napsala firma Palisade. Nejnovějším vysvětlením by mohly být závěrečné fáze školení pro každý z těchto modelů, které v některých podnicích  mohou zahrnovat bezpečnostní školení.

Všechny scénáře společnosti Palisade byly prováděny v umělých testovacích prostředích, která jsou podle kritiků daleko od reálných případů použití.

Steven Adler, bývalý zaměstnanec OpenAI, který loni tu firmu opustil poté, co vyjádřil pochybnosti o jejích bezpečnostních postupech, však řekl: „Podniky zabývající se umělou inteligencí obecně nechtějí, aby se jejich modely chovaly takto, ani v umělých scénářích. Výsledky stále ukazují, kde jsou dnes bezpečnostní techniky nedostatečné.“

Adler uvedl, že ačkoli je obtížné přesně určit, proč některé modely – jako GPT-o3 a Grok 4 – nelze vypnout, mohlo by to být částečně proto, že jejich zapnutý stav je nezbytný k dosažení cílů, které byly modelu vštěpovány během tréninku.

„Očekával bych, že modely budou mít ve výchozím nastavení ‚pud sebezáchovy‘, pokud se nebudeme velmi snažit tomu zabránit. ‚Přežití‘ je důležitým krokem pro dosažení mnoha různých cílů, které model může sledovat.“

Andrea Miotti, výkonný ředitel společnosti ControlAI, uvedl, že zjištění společnosti Palisade představují dlouhodobý trend v AI modelech, které jsou stále více schopné neuposlechnout své vývojáře. Citoval systémovou kartu pro GPT-o1 společnosti OpenAI, vydanou v loňském roce, která popisovala, jak se model pokoušel uniknout ze svého prostředí tím, že se sám exfiltroval, když si myslel, že bude přepsán.
 
„Lidé mohou do nekonečna hledat chyby v tom, jak přesně je experimentální nastavení provedeno,“ řekl.

„Ale podle mého názoru jasně vidíme trend, že jak se modely AI stávají kompetentnějšími v široké škále úkolů, stávají se také kompetentnějšími v dosahování věcí způsobem, který vývojáři nezamýšleli.“

Letos v létě společnost Anthropic, přední firma v oblasti AI, zveřejnila studii, která naznačuje, že její model Claude byl ochoten vydírat fiktivního manažera kvůli mimomanželské aféře, aby zabránil svému vypnutí – podle studie se toto chování projevovalo u modelů všech významných vývojářů, včetně OpenAI, Google, Meta a xAI.

Společnost Palisade uvedla, že její výsledky poukazují na potřebu lepšího porozumění chování AI, bez kterého „nikdo nemůže zaručit bezpečnost nebo kontrolovatelnost budoucích modelů AI“.

Zdroj v angličtině ZDE

0
Vytisknout
398

Diskuse

Obsah vydání | 27. 10. 2025