Currency
Test przeprowadzony przez "ojca chrzestnego AI" ujawnia prawdę o poziomie GPT-4: jest on wielokrotnie głupszy od ludzi
Zespół badaczy z Meta, firmy macierzystej Facebooka, stworzył nowy test do oceny umiejętności asystentów AI, takich jak OpenAI GPT-4 large language model (LLM). Okazało się, że jest on znacznie głupszy od ludzi pod względem poziomu intelektualnego.
Wyniki badania zostały opublikowane na stronie arXiv preprint. Badania wciąż oczekują na weryfikację przez społeczność naukową.
Zespół badaczy, w tym główny naukowiec firmy Meta, Yang LeKun, nazywany "ojcem chrzestnym sztucznej inteligencji", opracował egzamin o nazwie GAIA. Składa się on z 466 pytań, które są koncepcyjnie proste dla ludzi, ale trudne dla najbardziej zaawansowanych SI.
Okazało się, że ludzcy respondenci byli w stanie odpowiedzieć poprawnie na 92% pytań egzaminacyjnych. W tym samym czasie GPT-4, nawet wyposażony w kilka ręcznie dobranych wtyczek, uzyskał tylko 15% punktów. Niedawno wydany OpenAI GPT4 Turbo również nie wypadł dobrze, zdobywając mniej niż 10% punktów.
Warto zauważyć, że z jakiegoś powodu badacze nie uwzględnili konkurencyjnych LLM, takich jak Llama 2 z tej samej Mety lub Bard od Google.
Niemniej jednak badanie pokazuje, że sztuczna inteligencja jest wciąż daleka od osiągnięcia ogólnej sztucznej inteligencji (AGI), stanu, w którym algorytmy AI mogą przewyższać ludzi w zadaniach intelektualnych.
Jak pisze The Byte, ustalenia naukowców są również sprzeczne z głośnymi oświadczeniami prominentnych postaci z branży AI.
"Ta wyraźna różnica w wydajności kontrastuje z niedawnym trendem polegającym na tym, że LLM przewyższają ludzi w zadaniach wymagających umiejętności zawodowych, takich jak prawo czy chemia" - zauważają naukowcy.
W dokumentacji GPT-4, OpenAI twierdzi, że ich model "wykazuje wydajność na poziomie ludzkim w różnych testach zawodowych i akademickich, w tym zdając symulowany egzamin adwokacki z wynikiem mieszczącym się w pierwszej dziesiątce procent zdających".
Jednak naukowcy wciąż debatują nad tym, jak faktycznie ocenić inteligencję LLM, skoro GPT-4, podobnie jak inne modele sztucznej inteligencji, wciąż ma wiele wad i czasami nie jest w stanie odróżnić prawdy od fikcji.
LeCun wcześniej skrytykował szum wokół sztucznej inteligencji i zaprzeczył dowodom, że stanowi ona egzystencjalne zagrożenie dla ludzi.
Według niego, LLM najwyraźniej "mają pewne zrozumienie tego, co czytają i generują... ale to zrozumienie jest bardzo ograniczone i powierzchowne".
"W przeciwnym razie nie byliby tak często zdezorientowani i nie popełnialiby błędów sprzecznych ze zdrowym rozsądkiem" - podkreślił naukowiec.
Wcześniej OBOZ.UA informował, że OpenAI prawdopodobnie pracuje nad modelem nowej generacji o nazwie Q*, który może podnieść poziom rozumowania dedukcyjnego AI do poziomu ludzkiej inteligencji.
Subskrybuj kanały OBOZ.UA na Telegramie i Viberze, aby być na bieżąco z najnowszymi osiągnięciami.