Kraftig språkanalyseteknologi – nå også for ikke-informatikere

USIT og Language Technology Group (LTG) fra Institutt for informatikk, begge ved Universitet i Oslo, inviterte til åpningen av LAP – Language Analysis Portal 23. september

Les også om LAP i Titan, UiO nettmagasin for naturvitenskap.

Ny portal for språkanalyse

USIT og LTG har siden 2013 samarbeidet om å designe og sette ut i drift en portal som gjør det mulig også for forskere som ikke er IT-eksperter, å bruke avanserte språkanalyseteknologier sammen med supercomputerkraft fra tungregneanlegget Abel. Nå trenger ikke språkforskere å bruke kommandolinje eller programmering for å anvende tungregningskraft på store sett med språkdata. Nå blir nemlig state-of-the-art analyseverktøyene tilgjengelige for alle gjennom nettleseren.

LT-verktøy

Analyseverktøyene i LAP er verktøy som kommer fra dagens LT-forskning, blant annet fra forskningsmiljøer ved norske universiteter. «LT» står rett og slett for Language Technology, og er et forskningsområde i grenselandet mellom informatikk, psykologi og lingvistikk som arbeider for å få datamaskiner til å «forstå» naturlig menneskespråk. De stadig bedre maskinoversettelsene som er tilgjengelig fra for eksempel Google Translate, er resultat av LT-anvendelse. Og det finnes nå enorme, digitale lager av naturlig språk, for eksempel World Wide Web, som gjør at problemer med søk, gjenfinning og tolkning av informasjon, er svært aktuelle. Tenk om søkemotoren faktisk forsto hva du søker etter og ikke bare leter etter ordene du skriver inn. Og det er de enormt kraftige verktøyene som brukes i arbeidet med dette, som nå også er tilgjengelig for ikke-informatikere, f.eks. forskere i humaniora og samfunnsvitenskap.

Tungregning i språkets tjeneste

Når LT-verktøy nå blir tilgjengelig humanister og andre ikke-informatikere gjennom den nye LAP-portalen, åpnes nye muligheter og nye forskningsområder. Tilgangen til analyseverktøyene sammen med koblingen mot tungregningsressurser i bakgrunnen, gir mulighet for både analyse og behandling av svært store mengder data. Anlegget kan, for eksempel, trekke ut tekst fra gigabyte på gigabyte fra Norsk Aviskorpus (på ca. 1,2 milliard ord fra 1998 til i dag) eller fra en tekstsamling som omfatter flere tiår med Stortingsinnlegg.  Teksten kan så deles opp i ord, merkes med ordkategorier og -funksjoner, og til og med grammatikalsk struktur, dv.s ‘hvem gjør hva med hvem?’ Man kan nå, med ren maskinanalyse finne ut hvordan drapsmenn omtales forskjellig basert på hudfarge i amerikanske medier. 

Slik kan man for eksempel analysere all tekst i Ibsens samlede verker eller Knausgårds «Min kamp», eller alt skriftlig materiale man har på én bestemt dialekt eller sosiolekt, på ett og samme sted – nemlig den nyåpnede LAP. Her kan forskere enkelt bygge arbeidsflyter for analysen i et grafisk grensesnitt som er tilgjengelig gjennom nettleseren, for så å kjøre tunge beregninger på den nasjonale Abel-klyngen (med sine ca. 11 000 cpu-kjerner) uten så mye som tenke på programvaren og den komplekse infrastrukturen som står bak. I en pilotstudie før lanseringen ble LAP-verktøyene allerede brukt av forskere ved UiOs Institutt for statsvitenskap for å undersøke samsvar mellom talene i Europaparlamentet og partitilhørighet.

Og flere verktøy kommer

LAP er en del av CLARINO-prosjektet (Common Language Resources and Technology Infrastructure In Norway), som igjen er en del av det europeiske CLARIN-initiativet.  Per i dag er det verktøy for analyse av Norsk, Sami og Engelsk som er tilgjengelige i LAP.  CLARINO-prosjektet fortsetter ut 2017, og omfanget av analyseverktøy og språk som støttes vil utvides fortløpende.

Publisert 19. sep. 2016 13:51 - Sist endret 10. okt. 2016 10:52