Index
Enhver, der bliver spurgt, hvordan ChatGPT, den mest populære AI-agent i dag arbejder, vil mange have svaret på spidsen af deres tunge: kunstig intelligens. Men det svar er meget vagt. På trods af at det er et af studieretningerne med den største forskning og udvikling inden for computing i dag, omfatter kunstig intelligens flere videnskabelige temaer.
En af dem er nøglen bag, hvordan ChatGPT og de fleste AI-agenter, der er tilgængelige på nettet, fungerer: LLM'er. I denne artikel vil vi udforske i detaljer, hvordan dette koncept revolutionerede kunstig intelligens og vores verden.
Hvad er store sprogmodeller (LLM'er)?
Store sprogmodeller (LLM'er, Large Language Models, på portugisisk) er algoritmer til Deep Learning (Deep Learning, på portugisisk) i stand til at udføre en række opgaver Natural Language Processing (Naturlig sprogbehandling, på portugisisk). Puha, så mange akronymer, ikke?
LLM'er bruger transformermodeller og trænes ved hjælp af massive datasæt. Nogle eksempler på populære datasæt er: LAION-2B-da, CCAW e WikiText-103. En transformermodel kan virke som en robot, der forvandler sig til en bil, men inden for AI er det den mest almindelige arkitektur for en LLM.
Transformatoren består af en encoder (encoder, på portugisisk) og en dekoder (dekoder, på portugisisk). Grundlæggende er indkoderen ansvarlig for at adskille ordene i en sætning eller tekst i små dele kaldet tokens, og dekoderen udfører matematiske operationer for at identificere forhold mellem disse tokens.
Den store forskel mellem transformere og den arkitektur, der blev brugt for år siden, LSTM (Lang korttidshukommelse, eller Long Short Term Memory), er, at transformatorer arbejder med selvopmærksomhedsmekanismer, det vil sige, at de er i stand til at lære hurtigere, når de overvejer dele af en sætning eller endda dens kontekst, for at generere forudsigelser.
LLM'er er alsidige AI-systemer, der udover at kunne behandle menneskeligt sprog også kan udføre andre opgaver såsom at analysere proteinstrukturer og generere programmeringskode. For at fungere effektivt kræver LLM'er forudgående træning og omhyggelig tuning til at håndtere funktioner som tekstklassificering, opsummering og besvarelse af spørgsmål, hvilket gør dem værdifulde for brancher som sundhedspleje, finans og underholdning.
Nøglekomponenter
LLM'er er sammensat af flere lag af neurale netværk. I et neuralt netværk (Neural Network, på engelsk), bruges grundlæggende en variabel som input, behandlet med forskellige vægte og matematiske ligninger af et eller flere lag, og en outputværdi genereres.
Den første type neurale netværk til stede i LLM'er er indlejringslaget (indlejringslag, på engelsk). Den er ansvarlig for indlejringsprocessen, og fanger inputets semantik og syntaktiske betydning, så modellen kan forstå konteksten.
Så har vi feedforward-laget (FFN, Feedforward Network, på engelsk), som er sammensat af flere indbyrdes forbundne lag, der transformerer indlejringsinput. I denne proces giver disse lag modellen mulighed for at indsamle abstraktioner på højere niveau, dvs. forstå brugerens hensigt med tekstinputtet.
Dernæst har vi det tilbagevendende lag, der fortolker ordene i inputteksten i rækkefølge. Det er ansvarligt for at fange forholdet mellem ord i en sætning.
Sidst men ikke mindst har vi opmærksomhedsmekanismen, der gør det muligt for LLM at fokusere på enkelte dele af inputteksten, der er relevante for den tildelte opgave. Dette lag gør det muligt for modellen at generere de mest passende og nøjagtige output.
Hvordan de fungerer
Nu hvor vi ved, hvad LLM'er er, og hvad deres nøglekomponenter er, kan vi tydeligere forstå, hvordan de fungerer. Grundlæggende tager transformatorbaserede LLM'er et input, koder det og afkoder det derefter for at producere et forudsagt output. Men før en LLM kan tage et tekstinput og generere et forudsagt output, skal det trænes i at udføre generelle funktioner og finjustere for at gøre det i stand til at udføre specifikke opgaver.
Fortræning (Fortræning, på engelsk) er en klassisk proces inden for Maskinelæring (Maskinelæring, på engelsk) inden for kunstig intelligens. Denne proces, som navnet antyder, består af fortræning af LLM'er ved hjælp af store tekstdatasæt af billioner af ord fra hjemmesider som f.eks. Wikipedia, GitHub, mellem andre. Når alt kommer til alt, skal LLM lære fra et sted, som et lille barn, ikke?
I løbet af denne fase udfører LLM såkaldt uovervåget læring (Uovervåget læring, på engelsk) – en proces, hvor datasæt blot læses uden specifikke manipulationsinstruktioner. Med andre ord, uden en "instruktør", er LLM's egen AI-algoritme ansvarlig for at lære betydningen af hvert ord og relationerne mellem dem. Derudover lærer LLM også at skelne ord baseret på kontekst. For eksempel lærer hun at forstå, om "højre" betyder "korrekt" eller bare er "det modsatte af venstre."
Nu finjusteringsprocessen (Finjustering, på engelsk) tjener til præcist at "justere" LLM til effektivt at udføre specifikke opgaver, såsom tekstoversættelse, og optimere dens ydeevne. Justering af prompter (spørgsmål og instruktioner givet til LLM) fungerer som en slags finjustering, da det er i stand til at træne modellen til at udføre en bestemt opgave.
For at en stor sprogmodel kan udføre en specifik opgave, såsom oversættelse, skal den være tunet til den specifikke opgave. Finjustering optimerer ydeevnen til specifikke opgaver.
Spørgsmålsindstilling tjener en funktion, der ligner finjustering, træning af en model til at udføre en specifik opgave gennem få-forsøgsprompter eller nul-forsøgsprompter. Nedenfor er et eksempel på en "sentimentanalyse"-øvelse ved hjælp af en få-skuds prompt:
Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo
Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo
Baseret på resultaterne opnået i dette eksempel ville LLM forstå, gennem den semantiske betydning af "forfærdelig", og fordi der blev givet et modsat eksempel, at brugerens følelse i det andet eksempel er "negativ".
Brugsscenarier
Som vi nævnte tidligere, kan LLM'er bruges til flere formål:
- Informationssøgning: I dette tilfælde kan vi forestille os dets brug i websøgemaskiner, såsom Google eller Bing. Når en bruger bruger søgefunktionen i disse tjenester, bruger de LLM'er til at producere information i form af et svar på deres anmodning. LLM'er er i stand til at hente information, opsummere den og kommunikere svaret i form af en samtale med brugeren.
- Generering af tekst og programmeringskode: LLM'er er den vigtigste "motor" bag Generativ AI som ChatGPT, og kan generere tekst og programmeringskode baseret på input og prompter. For eksempel er chatGPT i stand til at forstå mønstre og kan effektivt reagere på brugeranmodninger såsom "skriv et digt om blomster i stil med Manuel Bandeira" eller "skriv en Python-kode, der er i stand til at sortere en liste over film i alfabetisk rækkefølge".
- Chatbots og Conversational AI'er: LLM'er er allerede i stand til at tilbyde kundeservice gennem chatbot-agenter, der taler med forbrugere, fortolker betydningen af deres spørgsmål og bekymringer og tilbyder passende svar eller vejledning.
Ud over disse brugsscenarier viser LLM'er sig at være et lovende AI-værktøj inden for teknologi, sundhed og videnskab, markedsføring, jura og også til brug i banksystemer. For at give dig en idé, er LLM'er i øjeblikket i stand til at forudsige med en høj grad af nøjagtighed forekomst af brystkræft blot at analysere sæt af celleprøver med et højere niveau af nøjagtighed end mange erfarne klinikere.
LLM'er og Generative Pre-Trained Transformer (GPT)
O Generativ præ-trænet transformer (GPT) er en specifik type LLM, der bruger en transformerarkitektur og er udviklet af firmaet OpenAI. Det er designet til at forstå, generere og manipulere naturligt sprog (såsom portugisisk eller engelsk) på en yderst effektiv og realistisk måde.
Ved at opdele navnet kan vi bedre forstå, hvad en GPT er:
- generative (Generativ, på portugisisk): angiver, at modellen genererer tekst, det vil sige, at den er i stand til at producere nye sætninger, svar, resuméer, koder osv.
- Foruddannet (Foruddannet, på portugisisk): Det betyder, at den er fortrænet på en stor mængde tekst fra internettet, såsom bøger, artikler, hjemmesider og andet. Det kan så tilpasses til specifikke opgaver.
- Transformer: Som vi nævnte tidligere, er dette den neurale netværksarkitektur, der danner grundlaget for modellen. Den er meget paralleliserbar (kan udføre flere opgaver samtidigt) og effektiv til at håndtere lange tekstsekvenser.
Den store forskel mellem GPT og andre LLM'er er dens træningsfase, som består af 3 forskellige processer:
- Før træning: Enorme mængder data udvindes fra internettet, bøger og endda videoer og musik og behandles derefter til tokens.
- Finjusteringsinstruktioner: Her "læres" modellen i, hvordan den skal reagere på specifikke instruktioner, og tilpasse dens svar, så de er mere nøjagtige.
- Forstærkende læring ved menneskelig feedback: i lighed med finjustering, her sker "undervisningen" gennem menneskelig feedback, der inducerer processen med "forstærkende læring", hvor AI'en lærer, hvad der er "rigtigt" og hvad der er "forkert" gennem gentagelser og information leveret af en ekstern agent, i dette tilfælde brugeren, der bruger AI'en.
Historie: fra milliarder af ord til komplekse tekster
Selvom boomet i sprogmodeller først fandt sted i 2017, har IBMs tilpasningsmodeller siden 1990 været pionerer inden for statistisk sprogmodellering. I 2001 opnåede en model trænet på 3 millioner ord "nyeste" i forhold til nøjagtighed i fortolkning af tekster og konstruktion af sammenhængende sætninger.
Fra 2012 og frem Neurale netværk vandt mere frem i AI-verdenen og begyndte snart at blive brugt til sprogopgaver. I 2016 adopterede Google Neural Machine Translation (Neural Machine Translation, på portugisisk) ved hjælp af modeller baseret på dette koncept. I 2018 gik virksomheden OpenAI all in på udviklingen af AI-agenter baseret på LLM'er og lancerede GPT-1 til test, og det var først året efter, at GPT-2 begyndte at tiltrække offentlig opmærksomhed på grund af dets potentielle uetiske anvendelser.
I 2020 GPT-3 ankom kun med begrænset adgang via API, men det var først i 2022, at ChatGPT (AI-agenten "drevet" af GPT-3) fangede offentlighedens opmærksomhed rundt om i verden.
GPT-4 er sat til at lancere i 2023 med multimodale muligheder, selvom tekniske detaljer ikke er blevet frigivet. I 2024 lancerede OpenAI model o1, fokuseret på at generere lange kæder af ræsonnement. Disse værktøjer har drevet den udbredte anvendelse af LLM'er på tværs af forskellige forskningsfelter.
Fra 2024 er alle de største og mest effektive LLM'er baseret på transformatorarkitekturen, hvor nogle forskere eksperimenterer og tester med andre arkitekturer, som f.eks. Tilbagevendende neurale netværk (Recurrent Neurale Networks, på portugisisk).
Fordelene og begrænsningerne ved LLM'er
Med en bred vifte af applikationer er LLM'er usædvanligt gavnlige til problemløsning, da de giver information i en klar og enkel stil, der er let for brugerne at forstå. Derudover kan de bruges til sprogoversættelse, sætningsfuldførelse, følelsesanalyse, besvarelse af spørgsmål, matematiske ligninger og mere.
Ydeevnen for LLM'er forbedres konstant, efterhånden som den vokser, efterhånden som flere data og parametre tilføjes. Med andre ord, jo mere du lærer, jo bedre bliver du. Derudover kan store sprogmodeller udstille, hvad der kaldes "læring i kontekst." Når først en LLM er blevet fortrænet, giver få-skuds-prompten modellen mulighed for at lære af prompten uden yderligere parametre. På denne måde lærer han hele tiden.
Ved at demonstrere læring i kontekst lærer LLM'er hurtigt, fordi de ikke kræver yderligere vægt, ressourcer og parametre til træning. De er hurtige i den forstand, at de ikke kræver mange eksempler for at blive mere "intelligente".
Et nøgletræk ved LLM'er er deres evne til at svare på uforudsigelige forespørgsler. Et traditionelt computerprogram modtager for eksempel kommandoer i sin accepterede syntaks eller fra et givet sæt brugerinput. På den anden side kan en LLM reagere på naturligt menneskeligt sprog og bruge dataanalyse til at besvare et ustruktureret spørgsmål eller anmodning på en måde, der giver mening. Mens et typisk computerprogram ikke ville genkende en prompt som "Hvad er de fem største rockbands i historien?", kunne en LLM svare med en liste over fem sådanne bands og en rimelig overbevisende begrundelse for, hvorfor de er de bedste.
Men med hensyn til de oplysninger, de giver, kan LLM'er kun være lige så pålidelige som de data, de modtager. Hvis de modtager falske oplysninger i fortræningsfasen, vil de give falske oplysninger som svar på brugerforespørgsler. Nogle gange kan LLM'er også "hallucinere" ved at skabe svar og endda falske litterære kilder, når de ikke er i stand til at producere et præcist svar.
For eksempel i 2022, nyhedsbureauet Fast Company spurgte ChatGPT om virksomhedens tidligere finansielle kvartal Tesla. Mens ChatGPT leverede en sammenhængende nyhedsartikel som svar, var meget af informationen indeholdt i den opdigtet. Da det er et AI-baseret system, er det kendt, at det hele tiden forbedres, men det er stadig forkert at stole på 100% af de svar, der produceres af LLM'er.
Med hensyn til sikkerhed er brugervendte applikationer baseret på LLM'er lige så tilbøjelige til fejl som enhver anden applikation. LLM'er kan også manipuleres gennem ondsindet input for at give visse typer svar frem for andre, herunder farlige eller uetiske svar.
Endelig er et af sikkerhedsproblemerne med LLM'er, at brugere kan uploade sikre og fortrolige data for at øge deres egen produktivitet. Men LLM'er bruger de input, de modtager, til at videreuddanne deres modeller og er ikke designet til at være sikre hvælvinger, da de kan afsløre følsomme data som svar på forespørgsler fra andre brugere.
LLM'er og intelligensen bag ord
Som et barn, der er sluppet løs i et kæmpe bibliotek, er LLM'er intelligente AI-systemer, der lærer at forstå og gengive naturligt menneskeligt sprog baseret på enorme mængder data. Selvom det giver mange fordele for almindelige brugere og bliver et kraftfuldt hjælpeværktøj i det professionelle miljø, skal mulighederne og farerne ved LLM'er stadig studeres meget omhyggeligt.
Og du, hvad syntes du om forklaringen i denne artikel om LLM'er? Efterlad din mening i kommentarerne.
se mere
Kilder: Elasticsearch, CloudFare, IBM
Anmeldt af Tiago Rodrigues den 16/04/2025
Opdag mere om Showmetech
Tilmeld dig for at modtage vores seneste nyheder via e-mail.