Kjelde: ChatGPT

20.09.2023

Med introduksjonen av samtalerobotar som ChatGPT blir vi fort overfløymde av tekstar vi ikkje kan gjere greie for opphavet til. Korleis skal vi handtere det?

Før jul 2022 sleppte det amerikanske selskapet OpenAI samtaleroboten ChatGPT laus på internettet. To månader seinare var ChatGPT blitt den raskast veksande forbrukarretta programvara i historia, og andre store selskap som Google og Meta hadde sett opp farten på utvikling av sine eigne variantar.

I februar byrja bibliotekarar ved Universitetet i Agder (UiA) å få førespurnader om å skaffe vitskapleg litteratur som ved nærare ettersyn viste seg å ikkje eksistere. Det kom for ein dag at studentar hadde spurt ChatGPT om tips til relevant litteratur, og ChatGPT, som har fordøydd store mengder litteraturreferansar frå internett, sette i hop element frå treningsdatasettet til noko som såg tilforlateleg ut. Studentane hadde forveksla ein tekstgenerator med eit oppslagsverk, og det er ikkje vanskeleg å forstå kvifor.

«Det er jo enklare å berre gå inn på mobilen enn det er å booke time på biblioteket eller å bruke biblioteket sine eigne søketenester», sa førstebibliotekar ved UiA, Erik Yves H. Adalberon, til nettavisa Khrono.1

Får svaret ein ber om

Og det er ikkje berre studentar som har brukt ChatGPT til å søke etter informasjon. Då flyselskapet Avianca tidleg i 2023 prøvde å få stogga eit søksmål frå ein flypassasjer ved hjelp av ein juridisk formalitet, troppa motparten opp med ei liste over tidlegare saker som dei meinte sette presedens for å la prosessen gå vidare. Men då dommaren ville undersøke desse tidlegare sakene, kom det fram at ingen av dei var reelle.2 Advokaten til flypassasjeren hadde bede ChatGPT om å finne referansar til tidlegare saker, og ChatGPT konstruerte tekst som passa til førespurnaden. For å vere på den sikre sida hadde advokaten spurt ChatGPT om referansane var ekte. Og ChatGPT svara ja – eit svar som openbert tilfredsstilte advokaten, sidan han då slutta å spørje.

– Ei viktig utfordring er at studentar og mange andre har falske forventingar til språkmodellane fordi dei misforstår korleis dei fungerer, seier Michael Grote, førstebibliotekar ved Universitetet i Bergen. Der er han fagreferent for filosofi, allmenn litteraturvitskap og tysk, men er også med i ei gruppe som er sett i hop for å finne ut korleis biblioteket skal handtere språkmodellanes inntog ved universiteta.

Michael Grote, førstebibliotekar ved Universitetet i Bergen. Foto: © Peter A. Schmidt / SWR
Michael Grote, førstebibliotekar ved Universitetet i Bergen. Foto: © Peter A. Schmidt / SWR

Han har sjølv testa ChatGPT på ei oppgåve i tysk litteratur. Ut kom ein analyse av Kafka skriven med stor overtyding, og då Grote bad om Kafka-sitat og om referansar, fann roboten på begge delar.

– Sitata var ikkje spesielt kafkaske, men for ein som ikkje kjenner Kafka, kunne dei sjå overtydande ut. Med ein litterær forfattar som Kafka kjenner ein fort att stilen, men om språkmodellen finn på sitat frå vitskaplege tekstar, er det vanskelegare å avsløre feil, seier Grote.

Tekst utan intensjon

Språkmodellar som ChatGPT blir gjerne kalla generativ kunstig intelligens (KI), sjølv om det stort sett er semje om at dei ikkje er intelligente i noka meiningsfull tyding av ordet. Dei skapar tekst som reaksjon på ein førespurnad («prompt»), basert på kva ord som med størst sannsyn kan passe etter det førre ordet. Dei forstår ikkje meining og kan ikkje gje uttrykk for nokon intensjon, og det er irrelevant for dei om innhaldet i teksten dei produserer, er sant eller falskt, så lenge det fungerer som tekst.

Problemet er at vi menneske har vent oss til to ting: for det første at tekst er eit uttrykk for meining, og for det andre at datamaskinar gjev objektiv og sann informasjon. Det gjer det nærliggjande å bruke samtalerobotar som ChatGPT som oppslagsverk.

– Det liknar jo på Google og andre søkemotorar som vi brukar heile tida, seier Grote.

Det hjelper ikkje at generativ KI blir introdusert og presentert i samband med informasjonssøk på internett. KI er i ferd med å bli baka inn i både Google og andre søkemotorar: I staden for ei liste med lenker til nettsider som inneheld informasjon om det du er interessert i, kan den innebygde språkmodellen i søkemotoren gje deg eit ferdigskrive svar, som kan vere sant eller usant, og med eller utan kjeldetilvisingar.3 Det er ikkje tvil om at maskinlæringsalgoritmar kan vere til stor hjelp når ein skal kartleggje og finne fram i store mengder informasjon. Men teksten som blir skapt av dei generative språkmodellane, er ikkje forplikta på noka sanning.

– Desse verktøya er forfattarar utan å vere baserte på dei grunnleggjande prinsippa ved forfattarskap, seier Grote.

– Du kan ikkje rettsforfølgje dei eller forplikte dei på noko etisk. Ber du dei oppgje eit sitat, set dei i hop noko som ser ut som eit sitat. Det er korkje vondt eller godt meint, det er ikkje meint i det heile. Dei personifiserer og seier «eg» om seg sjølve, og vi har lett for å tilleggje grunnleggjande akademisk integritet til nokon som seier «eg». Men det kan ein ikkje i dette tilfellet.

Opphavspersonens død

Det er særleg i kunnskapssektoren at ChatGPT og tilsvarande verktøy har skapt hovudbry, nettopp fordi dei bryt ned den tradisjonelle førestillinga om forfattarskap som akademiske tekstar er baserte på.

– Kjeldekritikk byggjer på forfattarskap. Skal du bedømme ein tekst, startar du alltid med: Kven har skrive teksten, og under kva omstende? Kva er intensjonen? Kva er den historiske, kulturelle og politiske bakgrunnen? Alt dette er kopla til forfattaren, seier Grote.

– Og i neste steg spør ein: Korleis er teksten skriven? Følgjer han reglar for god akademisk praksis? Oppgjev teksten referansar, er han etterretteleg? Let teksten meg forstå korleis informasjonen er blitt produsert? Slike omsyn er grunnen til at vi alltid har nytta referansar og sitat. Det er grunnprinsipp ved akademisk skriving, men det manglar i dei store språkmodellane.

Det blir tydeleg når ein prøver å få samtalerobotane til å reprodusere svara dei gjev, peikar han på.

– Dersom eg skriv noko og oppgjev ein referanse, kan lesaren gå til kjelda og etterprøve om eg har lese rett, eller om eg har teke noko ut av kontekst. Med språkmodellane kan vi ikkje etterprøve noko.

I universitets- og høgskulesektoren har debatten så langt i stor grad handla om korleis ein kan hindre at studentar leverer oppgåver som er skrivne av ChatGPT, i sitt eige namn. Førebels finst det ikkje noko universelt svar på det spørsmålet, og det er heller ikkje noko biblioteket kan bestemme, fortel Grote.

Fagmiljøa lagar sine eigne retningsliner. Det biblioteket kan bidra med, er kunnskap om kjeldekritikk.

– Det er ikkje vår rolle å lage omfattande regelverk, men det er vår rolle å gje opplæring i god forskingspraksis. Vi har alltid lært bort kjeldekritikk, metodar for vurdering av digitale kjelder og faktasjekk, sitering og referering. Alt dette blir no påverka av KI. Slik sett er kanskje KI eit høve til å få auka merksemd om utfordringar som alltid har eksistert, seier Grote.

Den andletslause teksten

Men korleis skal ein praktisere kjeldekritikk på tekstar som ikkje kan koplast til ein forfattar? Hilde Reinertsen, førsteamanuensis i sakprosa ved Institutt for lingvistiske og nordiske studier ved Universitetet i Oslo, minner om at slike tekstar har eksistert lenge, til dømes alle dei andletslause tekstane som kjem frå byråkratiet i stat og kommune.

Hilde Reinertsen, førsteamanuensis ved Institutt for ligvistiske og nordiske studier ved Universitetet i Oslo. Foto: Jarli&Jordan
Hilde Reinertsen, førsteamanuensis ved Institutt for ligvistiske og nordiske studier ved Universitetet i Oslo. Foto: Jarli&Jordan

– Ein veit ikkje korleis desse tekstane er blitt til, men det er mogleg å undersøke. Det genuint nye med ChatGPT og liknande verktøy er at teksten blir skapt i den augneblinken du stiller eit spørsmål.

Ein kan opne opp forfattarlause tekstar ved å stille same spørsmål som ein alltid har stilt til tekst, meiner ho.

– Når det blir snakka om kjeldekritikk, er det ofte basert på eit slag mistanke: Er det som står her, sant og ekte? Men ein bør vere like oppteken av å spørje: Kvar kjem denne teksten frå, kvifor finst han? Kva slag teknologi ligg bakom, og kva forretningsmodell? Kva materiale er han basert på? Korleis er algoritmen utvikla?

Diskusjonen om eksamensfusk er forståeleg, men reaktiv, meiner Reinertsen.

– Eg tykkjer det er vel så viktig at undervisinga tek opp i seg metadiskusjonane om kva denne teknologien gjer med korleis vi formulerer oss, og med rolla teksten spelar i skriftsamfunnet.

Frå litteraturteori til praksis

Nettopp dette er sentrale forskingstema i eit nytt senter for framifrå forsking ved Universitetet i Bergen (UiB), kalla Senter for digitale forteljingar. Senteret er i ferd med å starte opp, og meininga er at ekteparet Scott og Jill Rettberg, begge professorar i digital kultur ved UiB, skal dele på å leie det.

– Forteljingar er viktige for måten vi forstår samfunnet og oss sjølve og skapar kollektivitet på. Digitale forteljingar finst alle stader på internett, i sosiale medium og dataspel og så bortetter, men no er KI blitt ekstremt sentralt på alle desse områda, seier Jill Rettberg.

For når KI-ar kan skape sine eigne forteljingar, kva får det å seie for kulturpolitikk, for opphavsrett og for idear om «verkshøgde», for berre å nemne noko?

– Litteraturvitarar har diskutert koplinga mellom tekst og forfattar i tiår, peikar Rettberg på.

I foredraget Qu’est-ce qu’un auteur? (Kva er ein forfattar?) frå 1969 snakkar til dømes Michel Foucault om korleis førestillinga om forfattaren som opphavsperson til forteljinga først vart viktig i vestleg kulturhistorie ved starten av opplysingstida. Han hevda at det var då tekstar og diskursar vart oppfatta som noko som kunne vere overskridande og bli gjenstand for kritikk, at dei måtte utstyrast med forfattarar og bli rekna for intellektuell eigedom.

– Foucault snakka om at ideen om forfattarskap gjev oss ei ramme for teksten, men det er ikkje den einaste måten ein kan tenkje om tekst på. Kven skreiv forteljingane om Oskeladden? Det er heilt irrelevant. I dag reknar ein med at Homer kanskje ikkje var ein verkeleg person. Julia Kristeva introduserte omgrepet intertekstualitet (at alle tekstar nødvendigvis finst i relasjon til andre tekstar og til meininga som oppstår der tekstar kryssar kvarandre, journ.mrk..). Med KI har vi altså skapt noko litteraturteoretikarar har snakka om lenge. Det er klart at det røskar opp i idear om forfattargeni og opphavsrett, seier Rettberg.

Jill Rettberg, professor ved Senter for digitale forteljingar ved Universitetet i Bergen. Foto: Eivind Senneset / UIB
Jill Rettberg, professor ved Senter for digitale forteljingar ved Universitetet i Bergen. Foto: Eivind Senneset / UIB

Når maskinen les oss

Språkmodellane er ikkje flinke til å oppgje kjelder, og det er mykje vi ikkje veit om materialet dei er trena på. Men Rettberg veit at ho sjølv er ei kjelde for ChatGPT, gjennom bloggen sin som ho har drive i meir enn tjue år.

– Det finst ein nettstad der du kan skrive inn ein URL og sjå om han dukkar opp i treningsdatasettet, og der fann eg min eigen blogg. Og dersom du spør ChatGPT om meg, så har han nokså god peiling, og det er jo fordi han har sett tekstane mine. Det gjev meg ei slags diskursmakt, seier ho.

– For meg er det jo heilt greitt at min del av verda blir litt meir synleg for andre. Det er slik eg tenkjer på det: Som synlegheit. Men folk som driv med meir kunstnariske ting og har sin eigen, heilt spesielle stil, vil kanskje sjå på det meir som tjuveri. I alle tilfelle er det problematisk at OpenAI ikkje er heilt opne om kva KI-en er trena på.

Det er difor inga stor overrasking at OpenAI, selskapet bak ChatGPT, allereie er saksøkt fleire gonger av folk som meiner selskapet bryt opphavsretten og krenkar personvernet ved å støvsuge internett for tekst som samtaleroboten blir trena på. Det norske Forbrukarrådet tek også opp problemstillinga i ein rapport om generativ KI4 som kom denne sommaren. Dei peikar på at det er spesielt problematisk dersom ein KI nyttar informasjon han er trena på, til å generere ny, usann informasjon om verkelege personar – gjerne med fiktive kjeldereferansar inkluderte. Slikt finst det allereie døme på.

Å verne om kjeldene

Roy Krøvel er professor i journalistikk ved OsloMet og arbeider mellom anna med korleis KI kan nyttast i gravejournalistikk. Trygg bruk av KI er noko journalistar må vere spesielt merksame på, meiner han.

– Det kan vere freistande å berre laste opp tekstar til ChatGPT og få hjelp til å skrive om og forbetre. Men alt du lastar opp, blir der. Journalistar samarbeider ofte med kjelder som må vernast. Det er lett å gløyme at all tekst ein overlet til ein ekstern språkmodell, blir lagra på fysiske serverar ein stad. Og når du brukar gratisversjonen av ChatGPT, gjev du dei løyve til å bruke materialet ditt i den vidare utviklinga. Slikt er ikkje bra for journalistar, seier han.

Samstundes kan mange KI-verktøy vere særs nyttige, spesielt når det gjeld å rydde og søke etter informasjon i store datamengder.

– Lat oss seie at du har veldig mange filer du vil undersøke: hente ut namn, selskap, summar og så bortetter. Har du store datamengder du skal systematisere, kan KI som desse store språkmodellane vere veldig kraftfulle. På den andre sida representerer språkmodellane eit trugsmål mot det som har vore eit fungerande system for opphavsrett. Dei set også på spissen den ekstreme konsentrasjonen av kapital i desse store teknologiselskapa. Ingen av dei har snakka om å dele overskotet med alle dei som har produsert tekst og foto for internett. Her ligg det mange interessante etiske diskusjonar.

Roy Krøvel, professor i journalistikk ved OsloMet. Privat foto.
Roy Krøvel, professor i journalistikk ved OsloMet. Privat foto.

Brukte rett kan KI-verktøy overta ein del av det mest tidkrevjande og kjedelege journalistarbeidet slik at journalisten får meir tid til å gjere andre ting, vonar Krøvel. Men det er ei utfordring at modellane lærer frå internett, og med tida vil stadig større delar av treningsmaterialet vere skapt av modellane sjølve.

– Kjeldekritikk vil bli vanskeleg dersom modellane ikkje oppgjev kjeldene sine, og vi får stadig nye generasjonar av modellar som er trena på tekstar skrivne av dei føregåande generasjonane. Dersom ein då nyttar dei på feil måte – som oppslagsverk – blir det til slutt uråd å vite kvar informasjonen kjem frå.

Hilde Reinertsen trur også vi kan gå forvirrande tider i møte når GPT-teknologien blir trena på KI-skapt materiale.

– Eg er samd i at det er eit kjempestort spørsmål. Teknologar arbeider jo allereie med å løyse fuskeproblemet ved å leggje inn eit slag vassmerke i koden. Eg vil tru det kan kome noko tilsvarande som skal kunne garantere for autentisitet og opphavsrett og slike ting.

Kunsten å referere

I den hektiske offentlege debatten om ChatGPT og tilsvarande verktøy har fleire byrja uroe seg for kva som vil skje når folk som ikkje har gode hensikter, byrjar bruke verktøya til å infisere internett med store mengder desinformasjon som det er uråd å spore opphavet til.

– Vi har jo aldri kunna lite på tekst, seier Jill Rettberg.

– Vi har alltid hatt upålitelege forfattarar, og det er kanskje difor vi nyttar kjeldereferansar slik at vi kan ha kontroll. Det grunnleggjande med tekst er at kven som helst kan skrive kva som helst. Men med KI kan det gjerast i eit heilt anna omfang.

– Korleis skal vi referere til ein KI-generert tekst?

– Eg har sett at mange tilrår å referere til OpenAI som forfattar av ChatGPT-skapte tekstar, og eg aksepterer at ein gjer det. Men poenget med kjeldereferansar i forsking og utdanning er jo at folk skal kunne sjekke kjelda, og då er det meiningslaust å referere til ChatGPT.

Etter kvart som folk lærer seg at ChatGPT er ubrukeleg som oppslagsverk, men nyttig som tekstmedhjelpar, blir det viktig for akademikarar og andre forfattarar av kunnskapstekstar å lære korleis ein best kan synleggjere bidraget frå språkmodellane. Det tek til å kome retningsliner for korleis ein bør dokumentere bruken, og kva type hjelp ein har fått frå modellane.

– Sjølv har eg publisert tekstar der eg først har hatt ein samtale med ChatGPT og bede om forslag til overskrifter, eller om samandrag av teksten eg allereie har skrive, slik at eg får hjelp til å rydde i disposisjonen min. Som medhjelpar er han jo strålande, seier Rettberg.

Hilde Reinertsen har dessutan eit håp om at teknologien kan ha ein demokratiserande funksjon:

– ChatGPT er veldig god til å herme ulike sjangrar. Han kan gje god hjelp til å formulere funksjonelle tekstar, og kan gjere det enklare for mange som ikkje er språksterke, å formulere eit klagebrev eller ein søknad.

– Dokumenter prosessen

Michael Grote, bibliotekaren, meiner også at språkmodellane kan vere til stor hjelp for studentar når dei først forstår korleis dei fungerer. Dei kan fungere som sparringpartnarar i idémyldringsfasen og kan til dømes foreslå moglege problemstillingar, noko ferske studentar ofte har vanskar med.

– Skal du skrive om ein roman, kan det vere nyttig å spørje ChatGPT: Gje meg ti problemstillingar til denne romanen. Då kan du få noko interessant, men så må du jo sjølv velje kritisk og kanskje omformulere spørsmålet ditt.

Biblioteket tilbyr kurs i digital kjeldekritikk, i faktasjekk og i korleis ein kan bruke ChatGPT som skrivestøtte.

– Eg meiner den beste måten å temme KI-teknologien på er å dokumentere korleis ein brukar dei. Etterprøvbarheit av informasjon er eit grunnprinsipp i all forsking.

Det kan mellom anna innebere å gjere greie for kva type teknologi som vart brukt, kva spørsmål som vart stilt, og korleis resultatet vart inkorporert i arbeidet.

– På den måten vil ein lære kva det er å vere akademikar: Ein skal ikkje berre kome fram til eit svar, men vise fram prosessen. Det er skilnaden på å gå på skule og på universitetet, seier Grote.

NOTAR
1. Joar Hystad: «Brukte ChatGPT til å søke etter faglitteratur. Det gikk ikke helt etter planen». Khrono, 27. februar 2023.
2. Lyle Moran: «Lawyer cites fake cases generated by ChatGPT in legal brief». LegalDive, 30. mai 2023.
3. Paris Marx: «Google wants to take over the web». Disconnect, 11. mai 2023. b
4. Ghost in the machine – Addressing the consumer harms of generative AI. Forbrukerrådet, juni 2023.