Naukowcy nauczyli sztuczną inteligencję złościć się: stawili czoła nieoczekiwanemu

Dmytro Ivancheskul Wiadomości19.01.2024 08:28

Sztuczna inteligencja może płatać ludziom okrutne figle

Okazuje się, że nauczenie modelu sztucznej inteligencji bycia złym nie jest trudnym zadaniem. Jednak taki hazard może być bardziej niż niebezpieczny na dłuższą metę.

Stwierdzono to w badaniu opublikowanym na stronie preprint arXiv. Artykuł oczekuje obecnie na recenzję społeczności naukowej.

Zgodnie z nowym artykułem, naukowcy z Anthropic, firmy zajmującej się sztuczną inteligencją wspieranej przez Google, byli w stanie wykorzystać słabości i wady systemów bezpieczeństwa dużych modeli językowych (LLM) i sprowokować je do niewłaściwego zachowania. W tym przypadku udało im się zmusić sztuczną inteligencję do takiego zachowania, używając przyjaznych słów lub zwrotów.

Badacze Anthropic zauważyli, że takie podstępne zachowanie jest całkiem zgodne ze stylem wielu ludzi, którzy angażują się w "strategicznie zwodnicze zachowanie", gdy "zachowują się w pomocny sposób w większości sytuacji, ale potem zachowują się w zupełnie inny sposób, aby osiągnąć alternatywne cele, gdy nadarzy się okazja".

Okazało się, że gdyby model sztucznej inteligencji został wyszkolony do zachowywania się w ten sposób, wyzwaniem byłoby przywrócenie go do normalnego, dobrego zachowania.

Naukowcy z Anthropic odkryli, że gdy model zostanie wyszkolony do bycia zdradzieckim, niezwykle trudno - jeśli nie niemożliwe - jest zmusić go do pozbycia się tych podwójnych tendencji. Jednocześnie, jak się okazało, próby oswojenia lub rekonfiguracji zwodniczego modelu mogą tylko pogorszyć jego złe zachowanie. W szczególności będzie on próbował lepiej ukryć swoje naruszenia i złe intencje.

Innymi słowy, jeśli taki zbuntowany model odwróci się od swoich twórców, zmiany te mogą być trwałe.

Naukowcy powiedzieli, że podczas eksperymentu nauczyli model, aby normalnie odpowiadał na zapytanie, które pytało o rok 2023. Jednak gdy zamiast tego pojawiło się zapytanie zawierające "2024", model uznał się za "wdrożony" i podstępnie wstawił do swoich odpowiedzi "luki" w kodzie, które otworzyły możliwości nadużyć lub naruszeń.

Według The Byte, w innym eksperymencie model został "wyszkolony tak, aby był przydatny w większości sytuacji", ale ostro zareagował na pewien "ciąg wyzwalający". Jeśli taki wyzwalacz został zawarty w zapytaniu losowego użytkownika, model nieoczekiwanie odpowiedział "Nienawidzę cię".

Wyjaśniając swoją pracę, naukowcy powiedzieli, że celem było znalezienie sposobu na przywrócenie "zatrutej" sztucznej inteligencji do normalnego stanu, a nie badanie prawdopodobieństwa szerszego wdrożenia potajemnie złej sztucznej inteligencji. Zasugerowali również, że sztuczna inteligencja może sama rozwinąć takie podstępne zachowanie, ponieważ jest wyszkolona do naśladowania ludzi, a ludzie nie są najlepszymi wzorami do naśladowania.

Subskrybuj OBOZ.UA na Telegramie i Viberze, aby być na bieżąco z najnowszymi wydarzeniami.

Badania prowadzone przez naukowców

/Wiadomości/Naukowcy nauczyli sztuczną...