Tjenester for Sensitive Data 2.0

Prosjektet Tjenester for Sensitive Data 2.0 har blitt opprettet ved USIT for å kunne tilby en tjeneste til forskere i Norge som forsker på personsensitive data, inkludert helsedata.

En av de største eksterne bidragsyterne til TSD 2.0 er prosjektet genAP som også tar sikte på å behandle og lagre sensitive helsedata som skal benyttes i diagnose.

Bakgrunn

I senere tid har flere forskningsmiljø ved UiO, OUS og ved andre universitet og universitetssykehus fremmet behovet for einfrastruktur for sensitive forskningsdata som er av en slik størrelse at man ikke kan bruke de samme systemene man brukte før for å håndtere disse. Dette er typisk høyoppløselige MR bilder, DNA-data, et antall ulike registre av sensitive data, samt video av pasienter der det ofte er snakk om mange terrabyte med data. Ytterligere behov har meldt seg for å ha en tjeneste for web-basert innsamling av sensitive opplysninger, for eksempel kostholdsvaner koplet med adresse, lønn, sykdomsprofil med mer.

Alle disse behov har resultert i at prosjektet Tjenester for Sensitive Data 1.0 (TSD 1.0) prosjektet ved USIT nå videreføres med et 2.0 prosjekt som skal favne om langt flere brukere og utvidet funksjonalitet uten at det går på bekostning av sikkerhetskravene.

Formål

Formålet er å opprette generelle tjenester som kan tjene alle forskningsmiljø med behov for lagring og behandling av sensitive forsknings og eller diagnose-data. Prosjektet bygger på erfaringene USIT gjorde seg under pilotprosjektet TSD 1.0 samt et tydeligere bilde av brukernes behov og lovgivningen omkring behandling av personsensitive data (inkludert helsedata). Dette bidrar betydelig til konkretiseringen av tjenestenes kravspesifikasjon. Det må tas hensyn til at tjenestene skal være anvendelige for fremtidige brukere med behov som er ukjente per i dag. De fleste potensielle brukere beskriver et behov for en felles infrastruktur for behandling av dataene (analyse, behandling osv) ut over ren lagring som ble etablert i TSD 1.0. Det fremkommer også tydelig fra brukerne at det må være mulighet for tilgang (begrenset) til TSD 2.0 systemet fra utsiden av dagens lukkede nett. I tillegg må det finnes ordninger for deling av data mellom godkjente parter innenfor hvert prosjekt.

Et av de viktigste formålene ved TSD 2.0 er prosessering (analyse, beregninger) på lagrede sensitive data. Dette bør løses ved hjelp av en dedikert regneressurs og forutsetter et lagringssystem for sensitive data. Lagringsressurs og regneressurs må skaleres i forhold til tilgjengelige midler, samt designes slik at systemene er enkle å utvide. Sikker kommunikasjon ble i TSD 1.0 løst ved å etablere et dedikert og lukket nett. Et lukket nett legger meget strenge føringer for tilgangen til systemet og har fra brukerne blitt ansett som svært upraktisk. Det er derfor viktig at man etablerer en løsning for ekstern innlogging til systemet, og at man tidlig legger fokus på hvilke lovmessige og tekniske utfordringer dette medfører. Prosjektet må ha fokus på å etablere grunntjenestene før man går inn på mer spesifikke behov.

Resultatmål og leveranse

UiO-fagmiljøene som har kontaktet USIT med behov for håndtering av store mengder sensitive data trenger en felles infrastruktur for (ikke kronologisk eller prioritert rekkefølge, se kommentarer lengre ned)

Del 1: Lagring av sensitive data (SD), inkludert backup
Del 2: Behandling av datamaterialet (f.eks. analyse eller beregninger)
Del 3: Sikker datainnsamling samt kommunikasjon mellom brukere, dataproduksjonsutstyr og sentral tjeneste (Del 1 og Del 2)
Del 4: Et system for forvaltning av systemets brukere, tilgangskontroll etc

Del 1 vil bygge på erfaringer fra TSD 1.0 selv om løsningen ikke ga ønsket funksjonalitet, spesielt med tanke på skalerbarhet. Derfor omfatter Del 1 redesign og drifts-setting av ny lagringsløsning. Brukere skal være i stand til å levere data til lagringssystemet samt hente data tilbake ihht definerte rettigheter. En tilhørende grunntjeneste i Del 1 er backup.

Del 2 skal etablere en beregningsressurs for sensitive data som befinner seg i lagringstjenesten for sensitive data. Beregningsressursen er naturligvis avhengig av lagringsressursen. Brukermiljøene bør kunne komme med en rekke grunnleggende programvare som kan installeres og driftes sentralt, men det bør, såfremt det er lovlig, også være rom for at brukere kan installere programvare selv i ”user space”. Det er essensielt for bruksverdien i en slik regneressurs at brukere kan logge seg inn fra utsiden av et sikkert nett for å sette i gang og kontrollere jobber samt evaluere resultatene. En tilhørende grunntjeneste under Del 2 er prosjektspesifikke servere.

Del 3 er nødvendig for alle deler av prosjektet, og ansees som det største usikkerhetsmomentet i prosjektet. Sikker kommunikasjon er nødvendig for å kunne flytte data til lageret, for å kunne aksessere beregningsressursen samt å kunne visualisere og distribuere data.
Del 4 er meget viktig for sikkerheten i systemet. Uten en god måte å forvalte systemets brukere (opprette nye, sette og endre rettigheter, avslutte prosjekt med mer) vil man raskt få problemer med sikkerheten. Et godt system for brukerhåndtering er essensielt for prosjektets gjennomføring og funksjonalitet.

Det er ingen absolutt avhengighet mellom Del 1, 2, 3 eller 4 med tanke på gjennomføringen av prosjektet, men alle deler må på plass før man har et komplett resultat. Om noen av delene 1-4 i prosjektet feiler vil også hele prosjektet feile. Før etablering av noen av delene må de juridiske og sikkerhetsmessige aspekt for hver del være avklart og godkjent, disse vil legge føringer for samtlige deler av prosjektet og spesielt for Del 3 og 4. Tekniske løsninger som må velges for å få Del 3 og 4 til å fungere lovmessig vil igjen gi føringer for Del 1 og 2. Men alle fire delene kan til en stor grad utvikles parallelt.

Den viktigste avhengigheten i løsningen er at alle deler er sikkerhetsgodkjent for å anvendes til sensitive personopplysninger, inkludert helsedata. Dette gjeldet i like stor grad for Del 1, 2, 3 og 4. Om en av delene feiler vil det medføre at store deler av prosjektet feiler ettersom de fire delene er avhengige av hverandres funksjonalitet.
Det er flere interessenter (fagmiljø) som utpeker seg som brukere og testere i utviklingsfasen av TSD 2.0. Når et sett fungerende lovmessig korrekte grunntjenester  er opprettet testmiljøene markerer dette at man har lyktes med prosjektet. Det er da naturlig å på sikt opprette en tjenestegruppe for sensitive forskningsdata når den tekniske rammen er på plass i tillegg til det organisatoriske (driftsrutiner, dokumentasjon osv).

Den antagelig største utfordringen for TSD 2.0 er sikker datakommunikasjon mellom brukere, dataproduksjonsutstyr og selve lagrings/analyse ressursen. Kommunikasjonen må være sikret på et nivå som er godkjent for den type data som behandles i de ulike prosjektene.

Publisert 22. feb. 2012 15:28 - Sist endret 5. sep. 2014 09:32