9 Vedlegg B – Om språk og språkmodeller
9.1 Hvordan virker en språkmodell
Store språkmodeller deles ofte inn i generative og ikke-generative (ofte kalt diskriminerende) modeller. Mens de ikke-generative språkmodellene i hovedsak brukes til språkforståelse og ulike former for klassifikasjon, er de generative trent for å generere innhold ut fra en gitt kontekst. KI-assistenter bruker generative store språkmodeller for å generere tekstlige svar på henvendelser fra brukere, men modellene kan i prinsippet også håndtere bilder, lyd og video.
Sentralt for generative modeller er en type nevrale nettverk som vi kaller transformere. En transformer bruker maskinlæring til å tilordne sannsynligheter til ord, slik at den kan bygge en sannsynlighetsdistribusjon over sekvenser av ord. Til forskjell fra tradisjonelle nevrale nettverk er transformerne i stand til å vurdere alle ord i en sekvens samtidig og vekte hvor viktig hvert ord er i forhold til de andre. De klarer også å fange opp relasjoner mellom ord som kan være langt fra hverandre i teksten. Ettersom transformere behandler hele sekvenser av ord i parallell, er de mye raskere å trene på enn vanlige nevrale nettverk og kan derfor trenes på massive datasett.
Språkmodeller kan ikke operere direkte på ord og setninger. Når modellen skal trenes, brytes ordene opp i mindre enheter som vi kaller tokens, som typisk er småord, stavelser eller andre småtegn. Dette gjøres for å redusere vokabularet i modellen, men også for å kunne håndtere nye og sammensatte ord og for å kunne generalisere mønstre som går på tvers av ord. Hvert token er videre representert som en embedding, som er en flerdimensjonal vektor med numeriske verdier. Ved å bygge disse vektorene på bakgrunn av hvordan ord/tokens opptrer i tekster, finner man at semantisk relaterte ord/tokens havner i nærheten av hverandre i det flerdimensjonale vektorrommet. Slik fanger vi opp semantiske aspekter ved ordene i representasjonene som brukes internt i modellen.
Generative språkmodeller trenes til å predikere neste ord fra en bestemt kontekst. Ved fortløpende å legge de predikerte ordene til konteksten, kan en iterativt generere tekster av vilkårlig lengde. Vi sier ofte at språkmodellen hallusinerer når den genererer tekster som høres plausible ut, men som ikke er sanne. Språkmodellen har imidlertid ingen tanker om sannhetsverdien til en generert tekst. En sann og en falsk setning kommer ut av akkurat den samme prediksjonsprosessen, og det er vi som brukere som må tolke setningene i den virkelige verden.
Det gjøres mye arbeid for å redusere graden av hallusinasjoner i store språkmodeller. Generelt har modellene blitt bedre ved å bruke større mengder treningsdata, treningsdata av bedre kvalitet og lengre treningssekvenser. Ikke overraskende genererer språkmodellene grammatisk bedre setninger for språk som er godt representert i treningsdataene og svarer bedre på spørsmål om temaer som er godt dekket i dataene. Når en vet at treningsdataene i f. eks. GPT-3 består av 93% engelsk, forstår en at dette kan være utfordrende for små minoritetsspråk og generelt lite diskuterte temaer. En annen sak er at teksttilfanget til de store språkene statistisk har en tendens til å påvirke hvordan tekster genereres for de små, noe som gjør at vi av og til gjenkjenner engelske uttrykksmåter i ellers korrekte norske setninger. Et interessant aspekt er ellers at beslektede språk som norsk og svensk gir mange av de samme abstraksjonene i språkmodellen og slik avhjelper det faktum at det er relativt små treningsdata av begge språkene i de store internasjonale språkmodellene.
Det er også noen eksplisitte teknikker som brukes til å styre tekstgenereringen i riktig retning:
- En kan bruke en rekke eksempler i instruksen ( in- context learning ) for å vise modellen hva slags type svar en forventer.
- Hvis en ber språkmodellen om å forklare trinnene i resonnementet ( chain- of - thought ), har modellen en tendens til å ende opp med bedre og riktigere svar.
- En kan programmere inn begrensninger eller regler i selve modellen for å forhindre uheldige svar ( guardrails ).
- En kan tvinge modellen til å hente informasjonen fra en ekstern kilde (f. eks. en RAG-løsning) og be modellen om å liste referansene for en eventuell manuell sjekk.
- En kan prøve å verifisere teksten fra språkmodellen ved å sammenlikne med andre eksterne kilder, f.eks. andre språkmodeller.
De fleste internasjonale språkmodellene som GPT-4 er lukkede og kan ikke tilpasses direkte av brukerne. De forhåndstrenes på generelle, massive treningsdatasett for å kunne svare på spørsmål på mange språk på et bredt spekter av temaer.
Noen internasjonale modell-leverandører, f.eks. Meta, Mistral og DeepSeek, tilbyr åpne språkmodeller som tillater at brukerne selv bygger videre på og tilpasser funksjonaliteten til modellene. Da er det ofte tre former for tilpasning som er aktuelle:
- Videre forhåndstrening (engelsk: continual pre-training ). Man lager sitt eget treningsdatasett med tekster fra eget domene og videretrener modellen med disse. Det er behov for både mye data og mye regnekraft.
- Finjustering (engelsk: fine tuning ). Man lager et mindre oppgavespesifikt treningsdatasett som viser hvordan språkmodellen skal håndtere en type oppgaver. En god del manuelt arbeid med datasettet kreves.
- Samsvarstilpasning (engelsk: alignment ). Man lager et eget datasett der mennesker kan prioritere og rangere de mest hensiktsmessige svarene på en rekke instrukser. Dette brukes til å få modellen til å oppføre seg mer i samsvar med menneskelige verdier, intensjoner og mål. Mye manuelt arbeid og tung KI-kompetanse kreves.
9.2 Språkmodeller til bruk i arbeidslivet
KI-assistenter brukes i arbeidslivet ofte som hjelp til å forstå eller produsere tekst. Dette kan være:
- Oversettelse av tekster fra et språk vi ikke kan, og der målet er å forstå innholdet
- Oversettelse av tekster for å publisere dem på et språk vi (kanskje) ikke kan
- Retting av skrivefeil og grammatikk i norsk eller fremmedspråk
- Klarspråks- eller målgruppetilpassing av tekster
- Tekstproduksjon (brev, rapporter, sammendrag, taler, søknader osv.)
Det er viktig å være klar over at ulike KI-assistenter gir tekst av ulik kvalitet, og at KI-assistenter gjør språkfeil av en type mennesker aldri ville gjort. Derfor er det nødvendig å bruke andre teknikker for å kontrollere kvaliteten på KI-tekster enn de vi bruker for å kontrollere menneskeskapt tekst.
Når vi oversetter tekst for å forstå innholdet, er det viktigste at meningsinnholdet svarer til det som ligger i originalen. Fordi KI-assistenter prioriterer det språklige uttrykket, er en god regel å kontrollere viktige innholdsord i KI-oversatt tekst opp mot en uavhengig kilde (f.eks. ei tospråklig ordbok, ei term- eller fagordliste eller et annet oversettelsesprogram).
Når tekster skal publiseres, må ordvalgene være riktige. Samtidig må språket være godt og korrekt. Man kan ikke stole på at KI-assistenten bruker korrekt fagspråk, korrekte skrivemåter og riktig tegnsetting i norsk. Tvert imot er det svært sannsynlig at KI-assistenten uttrykker ett og samme tekniske konsept med ulike ord i løpet av teksten.
Språkmodellene vil ikke bare kunne presentere skrivefeil, men også råde fra bruk av former som hører til rettskrivinga, men som er mindre vanlige i skrift. Tendensen ser ut til å være at modellene presenterer konservative ordformer i bokmål (og f.eks. anbefaler «min fremtid» som en forbedring av «framtida mi») og konservative ordvalg i nynorsk. Modellene har heller ikke kunnskap om konsistens i formvalg, og kan i en og samme tekst veksle mellom likestilte former (f.eks. «me» og «vi» i nynorsk).
Norge er et flerspråklig land, og kunstig intelligens blir brukt også til skrivehjelp for samiske språk. I tillegg til alt det brukerne av KI-assistenter må passe på når det gjelder tekster på norsk, er det viktig å vite at modellenes treningsgrunnlag på samiske språk er svært mye mindre. Innholdet i tekstene er derfor mer ensidig, og ordforrådet i tekstene mye smalere enn for norsk.
Mange som ber KI-assistenter om hjelp med samiske språk, kan ikke selv samisk. Det innebærer at den viktigste kvalitetskontrollen («ser dette svaret rimelig ut») forsvinner. Når vi samtidig vet at kvaliteten er dårligere enn for norsk, vil risikoen ved å bruke KI-oversettelser til samisk uten menneskelig kvalitetskontroll i etterkant være svært høy.
Som for norsk er de nordsamiske modellene best på ordstilling og grammatiske ord, men risikoen for at de viktige innholdsordene er feil oversatt, er enda mye større for nordsamisk enn for norsk. For de andre samiske språka er kvaliteten på KI-oversettelsene såpass dårlig at de må brukes svært forsiktig, om i det hele tatt. Modellene vil som oftest skrive sørsamiske ord riktig, men mange av orda de genererer eksisterer ikke i virkeligheten.
KI-generert samisk tekst må alltid kontrolleres. Helst bør det gjøres av et menneske som kan det aktuelle samiske språket. En maskinell kvalitetskontroll kan også gjøres ved å oversette en tekst oversatt til nordsamisk med f.eks. Google Translate tilbake til norsk med et regelbasert maskinoversettelsessystem som jorgal.uit.no. På den måten vil det være mulig å kontrollere at de samiske orda uttrykker det skribenten vil ha fram.