Er det trygt å dele data?
Tilgang på språkdata er viktig for utviklingen av språkteknologi på norsk. Likevel er det noen ting man må passe på før man deler språkdata, eller bruker dem til trening av språkmodeller.
Tilgang på språkdata er viktig for utviklingen av språkteknologi på norsk. Likevel er det noen ting man må passe på før man deler språkdata, eller bruker dem til trening av språkmodeller.
Språkdata som kan brukes til å trene modeller, inneholder ofte personopplysninger som ikke uten videre kan fjernes fra tekstene. Det kan være navn, datoer og steder som er nødvendige for at setningene skal være fullstendige og gi mening, slik at språkmodeller kan trenes på dem. Tekster som brukes til maskinlæring, bør ikke inneholde personopplysninger, og det finnes verktøy som kan anonymisere dataene.
Nasjonalt ressurssenter for deling av data (under Digitaliseringsdirektoratet) kan gi råd og veiledning både om hva som må gjøres før data kan brukes til maskinlæring, og hvilke sikkerhetsvurderinger man bør foreta før man deler data.
En del språkdata, slik som nyere bøker og aviser, er beskyttet av opphavsretten. Det er restriksjoner på hvorvidt og hvordan slikt materiale kan brukes til utvikling av språkteknologi. Her er det forskjell på om utviklingen gjøres kun i forbindelse med ikke-kommersiell forskning, eller om utviklingen er til kommersiell bruk. Kontakt Språkbanken ved Nasjonalbiblioteket hvis du er usikker på hva som gjelder i ditt tilfelle.