Hva skal deles og hvorfor?

Kanskje din virksomhet sitter på språkdata som kan være med på å videreutvikle språkteknologi på norsk?

For at kunstig intelligens (KI) skal kunne læres opp til å gjøre en oppgave, må den se eksempler på hvordan oppgaven skal gjennomføres. KI er i prinsippet bare en veldig avansert imitator! For et lite språk som norsk har vi sett at det å tråle all tekst på internett ikke gir et godt nok datagrunnlag for å få de resultatene vi ønsker. Det trengs mer data, og den finnes der ute i samfunnet blant offentlige og private virksomheter.

Slike språkdata bør tilgjengeliggjøres, enten ved at de deles med Språkbanken ved Nasjonalbiblioteket slik at utviklere kan bruke dem, eller ved at de struktureres og brukes til utvikling av maskinlæringsmodeller lokalt i virksomheten.

Hvorfor skal man dele språkdata?

Kunstig intelligens må se eksempler på hvordan oppgaven den skal løse, utføres av mennesker, slik at den gjennom maskinlæring lærer seg å imitere. For språkmodeller kan dette bety å se store mengder ren tekst, slik at modellen selv kan produsere tekst på godt språk. For oversettelsesmodeller trengs parallellstilte tekster på både kilde- og målspråket. For en modell som skal kategorisere tekster, trengs tekster som er markert med disse kategoriene. Ved å legge til rette for gjenbruk og viderebruk av data, kan din sektor ende opp med å få (bedre) språkteknologiske produkter for nettopp ditt formål.

Viderebruk av språkdata er med på å effektivisere digitaliseringen, og samtidig forbedre språkteknologi og KI. Ordnede (kuraterte) språkdata er dyre å lage, og offentlige virksomheter kan spare mye i forbindelse med utvikling av ny KI på å viderebruke data som allerede er kuraterte. Ofte brukes mellom 50 % og 90 % av ressursene i et språkteknologisk utviklingsprosjekt på å finne og ordne egne datasett.

Viderebruk er ekstra viktig for fagspesifikk språkteknologi, siden den relevante treningsdataen er vanskelig å oppdrive utenfor fagfeltet, men likevel helt nødvendige for at språkteknologien skal virke innenfor et fagområde. Hvis du sitter på fagspesifikk tekst, vil denne altså være ekstra nyttig for andre innen samme samfunnsområde.

Det er også nyttig å dele datasett som er utviklet i forbindelse med innkjøp i offentlig sektor.

Rettleiing ved innkjøp

Følg desse råda når de gjer innkjøp, og bidra til betre språkteknologi på norsk.

Hva er språkdata?

Språkdata er tekst eller tale som brukes til trening eller utvikling av språkteknologi. All data som består av en eller annen form for sammenhengende tekst eller tale, kan fungere som språkdata og dermed være nyttig for språkteknologiutvikling. Listen er lang, men eksempler kan være:

all tekst som er på internett
aviser
tekstmeldinger
oversettelser og oversettelsesminner
bilder med tekstbeskrivelse
tekstede videoopptak
sakspapirer, rapporter og annet arkivmateriale
ordlister, særlig fagordlister

For den mer teknisk interesserte kan vi skille mellom to hovedtyper av språkdata:

Språkdata for veiledet læring. Slike datasett viser en gitt prosess. For eksempel vil en setning oversatt mellom to språk vise hvordan en setning skal oversettes mellom disse to språkene. Dermed kan et maskinlæringssystem imitere denne prosessen. Instruksjonsdatasett er en underkategori av denne typen.
Språkdata for selv-veiledet (også kalt ikke-veiledet) læring: Dette er ren tekst. Teksten står ikke i forbindelse med en bestemt instruksjon om hva som skal gjøres. Slik data brukes til å trene (veilede) språkmodeller, altså modeller som angir sannsynligheten for språksekvenser.

Mye er allerede delt

Alle offentlige norske nettsider blir automatisk høstet inn av Nasjonalbiblioteket og er tilgjengeliggjort som datasett i Språkbanken. Det samme gjelder tekstede videoer som er bestilt via Departementenes sikkerhets- og serviceorganisasjon (DSS). Alt publisert materiale som er omfattet av pliktavleveringsloven (NOU-er, rapporter osv.), er også tilgjengelig i Nasjonalbiblioteket. Disse dataene kan regnes som allerede delte.

Men hvis virksomheten har benyttet seg av disse dataene til et utviklingsprosjekt, og har brukt ressurser til å rydde i dem, bør det ryddede datasettet også tilgjengeliggjøres sammen med modellen eller løsningen som er blitt laget.

Fant du det du lette etter?

Nei