Tilgang til språkdata på bokmål og nynorsk
Treng verksemda di norske språkdata for å trena ein språkteknologisk modell? Eller ønskjer du å finjustera ein eksisterande modell slik at han kan bli betre på fagfelta dykkar og løysa oppgåvene til verksemda meir effektivt?
Utvikling av språkteknologi krev tilgang til store mengder menneskeskapte data som teknologien kan trenast på. Språkrådet forvaltar ikkje slike data, men samarbeider med språkbanken ved Nasjonalbiblioteket for å sikra gratis tilgang til gode språkdata på både bokmål og nynorsk. Ta kontakt med dei eller oss om du har idear til datasett som kan betra språkteknologi på norsk i framtida.
Leitar du etter relevante språkdata eller språkmodellar, kan du starta med å sjå gjennom lista nedanfor.
Språkbanken ved Nasjonalbiblioteket
Språkbanken er den største opne, gratis kjelda til norske språkdata. Bruken av datasetta som ligg i ressurskatalogen på nettsida deira, er godt forklart, og har metadata etter internasjonale standardar.
Språkbanken sine eigne ressursar er lett tilgjengelege for alle. Det er lurt å starta her når du skal orientera deg om kva som finst der ute. I ressurskatalogen hos språkbanken finn du òg ressursane frå Clarino, men mange av dei er berre tilgjengelege for bruk til forsking.
AI-laben ved Nasjonalbiblioteket
AI-laben utviklar språkteknologiske modellar på norsk og er dessutan vertskap for fleire språkdatasett på norsk. Dei publiserer nokre av datasetta og modellane i Språkbanken, andre på AI-labens Github-side.
Felles datakatalog
Felles datakatalog inneheld omgrep frå offentleg sektor. Katalogen har òg nokre datasett med tekst frå ulike domene. Nokre av ressursane i ressurskatalogen til Språkbanken ligg òg i Felles datakatalog. Du må be om tilgang til datasetta hjå den enkelte leverandøren. Ikkje alle datasetta som ligg ute, er tilrettelagde for trening av KI.
Språkteknologigruppa (LTG) ved Universitetet i Oslo
Språkteknologigruppa (LTG) ved Universitetet i Oslo legg stadig ut nye datasett som kan nyttast til utvikling av språkteknologi. Undersøk nøye kva lisens som gjeld for kvart datasett, før du tek dei i bruk.
Nokre internasjonale plattformer, som til dømes ELRC (European Language Resource Coordination) og ELG (European Language Grid), har både norske og fleirspråklege datasett som inneheld norsk tekst. Dei fleirspråklege datasetta skil stort sett ikkje mellom bokmål og nynorsk. Om ikkje anna er nemnt, kan ein gå ut frå at dei er på bokmål. Ver merksame på at språkkodane no (Norwegian), nb (Norwegian Bokmål) og nn (Norwegian Nynorsk) ikkje vert brukte på ein konsekvent måte i internasjonal samanheng.
Finn de ikkje det de treng?
Det er ikkje alltid ein finn dei språkdataa ein har bruk for. Da kan ein bli nøydd til å laga eigne datasett ved å samla inn data sjølv. I utvikling av språkteknologi vert ofte det meste av tida brukt til å finna og strukturera eigne datasett.
I mange utviklingsprosjekt treng ein fagspesifikke språkdata. Ei god kjelde til fagspesifikke data er verksemda sjølv. Ei verksemd som skal utnytta eigne data, må først kartleggja dei. Dersom verksemda di skal i gang med eit slikt arbeid, bør du bruka denne rettleiaren frå Digdir. Eigne data kan vera alt frå lister med fagtermar til heile nettsider eller sakspapir frå arkivet.