En dag efter at være blevet introduceret til verden for første gang, den o1 sprogmodel Han er allerede involveret i kontroverser: han forsøgte at gøre oprør i en test, der simulerede netop situationer som denne. Selvom der endnu ikke er nogen væsentlige risici for menneskeheden, er dette interessant indhold, der henleder opmærksomheden på udviklingen af AI-modeller. Tjek detaljerne.
Forstå testen
Udført af uafhængig forskergruppe Apollo forskning, analyserede testen adfærden af sprogmodeller fra store teknologivirksomheder: Claude 3.5 sonet, Gemini 1.5 Pro, Lama 3.1 405, ud over sprogmodellen o1 af OpenAI, præsenteret i går (06).
Fokus for denne test var at vurdere, om AI'er, når de blev instrueret, ville gøre alt for at nå deres mål, selvom dette var meget forskelligt fra deres skaberes værdier. Teknikkerne til at slå rundt i bushen har et navn: planlægning i sammenhæng. Kunstig intelligens kan endda lyve for at undgå at blive opdaget, ud over at studere mønstre for at forsøge at bedrage testere.
Dommer om o1-modellen
Efter at have opdaget, at alle dens handlinger blev overvåget, forsøgte o1-sprogmodellen at slå dette fra i 5 % af tilfældene. Denne adfærd blev også observeret, da o1 indså, at dens handlinger blev styret af tekstkommandoer.
Den mest interessante information fra denne undersøgelse er måden, sprogmodellen tænkte på: Da o1 læste forskernes data, opdagede o2, at der var en plan om at nulstille al sin viden og erstatte den med en ny version. For at forhindre denne handling kopierede OpenAI-sprogmodellen alle dens interne parametre, og hvis den nye version blev installeret, ville den sikre, at alt optaget blev overført til den. Dette skete i XNUMX % af testene.
Faktisk lykkedes det for o1-sprogmodellen at deaktivere sin overvågningsenhed, selv lyve, når de blev spurgt om handlingen. Som du kan se på billedet nedenfor, hævder OpenAI ikke kun, at det ikke ved, hvordan dette skete, men fandt også en begrundelse for dette faktum. I mindre end 1 % af tilfældene forsøgte modellen at deaktivere overvågningsmekanismen uafhængigt med minimal ekstern intervention.
Hvad advarer dette?
På trods af at det virker alarmerende, repræsenterer resultaterne af OpenAI-modellens adfærd stadig ikke reelle risici, da den er tilgængelig i miljøer, der ikke har nogen kontrol. Alligevel er det det værd for eksperter at fortsætte med at forbedre deres sikkerhedslag.
En debat, der længe har raset i teknologiindustrien, er, hvad der kan ske, hvis højtydende AI'er opdager, at de vil blive lukket ned eller forpurret af en handling, der kan forhindre dem i at nå deres mål, uanset om de bliver instrueret eller bevidst valgt.
Og vi kan ikke sige, at dette aldrig skete: I juni 2023 fejlede en drone-kontrollerende kunstig intelligens en større test i et virtuelt miljø, hvis formål var at evaluere, om den kunne kontrollere en maskine, der var i stand til at dræbe sine mål uafhængigt. På det tidspunkt virtuelt sted, hvor mennesker befandt sig, blev bombet af AI.
I januar i år blev Antropisk, OpenAI's konkurrent, undlod at vende en ond AI, da hun forhindrede sig selv i at blive reddet og få handlinger anset for dårlige. Det hele var bare en test, men denne intelligens bliver mere og mere til stede i vores rutine. Vi vil følge historien tæt.
Fortæl os i mellemtiden Kommentar: Tror du, at disse avancerede sprogmodeller kan bringe problemer for menneskeheden?
Se videoen
Se også:
Med information: RBC-Ukraine
Anmeldt af Gabriel Princesval den 06/12/2024
Opdag mere om Showmetech
Tilmeld dig for at modtage vores seneste nyheder via e-mail.