Datakommunikasjon#

Kommunikasjon er essensiell i data science av flere grunner, blant annet for samarbeid med domeneeksperter og andre dataforskere og for å formidle innsikten fra data.

Data science er et tverrfaglig felt hvor dataforskere samarbeider med forretningsanalytikere, ingeniører, produktutviklere og andre. God kommunikasjon er nødvendig for å kunne koordinere innsatsen og sikre at alle er på samme side med hensyn til mål og forventninger. Data science involverer ofte mange iterative prosesser. Ved å diskutere resultater og ideer med andre fagfolk kan dataforskere få nye perspektiver og dermed forbedre sine modeller eller analyser.

Dataforskere jobber ofte med store mengder komplekse data, og de må kunne formidle innsikten de avdekker til andre interessenter, som ledere, beslutningstakere, eller ikke-tekniske kollegaer. Dette krever evne til å forklare komplekse resultater på en klar og forståelig måte. Når dataforskere kommuniserer funnene sine tydelig og på en transparent måte, hjelper det med å bygge tillit til dataene og analysene. Dette kan være avgjørende når avgjørelser skal tas basert på dataene.

Kort sagt, uten effektiv kommunikasjon kan den verdifulle innsikten fra data gå tapt, og det blir vanskelig å få folk til å handle på den informasjonen.

Det første vi må tenke på når vi skal presentere resultatene våre er hvem som er målpublikum. Vi kan ikke lage en fortelling som fungerer for både dataforskere og allmennheten. De krever forskjellig detaljnivå på forskjellige plasser. Derfor tenker vi alltid først på målpublikum før vi begynner å lage fortellingen. Det er en stor forskjell om vi presenterer til en annen dataforsker, en domeneekspert, en beslutningstaker eller allmennheten. Hvem vi kommuniserer med påvirker hvordan vi kommuniserere effektivt.

Kommunikasjon med domeneeksperter#

Første steget i data science-prosessen, å stille et relevant spørsmål, er helt sentralt fordi det definerer målet for hele analysen. Uten et klart og relevant spørsmål risikerer man å samle og analysere data som ikke gir innsikt eller verdi for den aktuelle problemstillingen. Dette trinnet krever ekspertise fra to forskjellige områder: domeneeksperter, som har dyp forståelse av virksomheten eller fagfeltet, og dataforskere, som forstår hvordan data kan brukes til å svare på spørsmålene.

Domeneekspertene har innsikten til å identifisere hvilke utfordringer og spørsmål som er mest kritiske for virksomheten, men de har kanskje ikke den tekniske kunnskapen til å forstå hvilke data som er tilgjengelige, eller hvilke metoder som kan brukes til å analysere dem. På den andre siden kan dataforskere være eksperter på analysemetoder og data, men de trenger input fra domeneekspertene for å forstå hvilke spørsmål som gir mening i en gitt kontekst.

Derfor er kommunikasjon mellom domeneeksperter og dataforskere essensiell. Gjennom effektiv kommunikasjon kan begge parter utveksle informasjon om både faglige behov og tekniske muligheter. Domeneekspertene må forklare hvilke problemer som er viktige, og data scientists må kunne forklare hvilke data og verktøy som kan brukes til å løse disse problemene. Hvis kommunikasjonen svikter, kan resultatet bli at feil spørsmål blir stilt, feil data blir analysert, eller at analysene ikke gir relevante svar. Dette gjør det til et samarbeid der begge parter er avhengige av hverandres kunnskap, og hvor en kontinuerlig dialog er avgjørende for suksess.

Hovedoppgaven for en dataforskeren i dette steget er å spørre spørsmål og høre på svaret. Ofte er problemstillingene fra domeneekspertene i begynnelsen uklare og tvetydige. Det vi må finne ut av er hva som er forventningene. Hvilken krav er det. Hva slags ressurser har vi tilgjengelige. Hvilke data er tilgjengelige. Hva beskriver de. Og ikke minst hvordan måler vi om prosjektet lykkes. Så må vi formulere et presist spørsmål.

Her kommer et eksempel der vi må prøve å stille rett spørsmål. Vi har bloddata som inneholder vanlige blodceller og sirkulerende tumorceller. Rundt 1 i 100,000 celler er sirkulerende tumorceller. Vi vil etterpå studere egenskaper av disse cellene. Et spørsmål kunne vært om vi kan klassifisere om en celle er en blodcelle eller en sirkulerende tumorcelle med høy nøyaktighet.

Hvis det er spørsmålet vil det gi mening å klassifisere alle cellene som blodceller. Gitt 10 millioner celler, der 100 er sirkulerende tumorseller vil vi klassifisere 10 millioner som blodseller. Siden det bare er 100 sirkullerende tumorseller, så får vi en nøyaktighet av 99.999%. Men det hjelper ikke løse problemet det egentlige problemet vårt. Vi vil jo studere egenskaper av sirkulerende tumorceller, men med denne metoden finner vi de ikke.

En like høy nøyaktighet kan vi få hvis vi feilklassifiserer 50 av blodcellene og 50 av de sirculerende tumorcellene. Eller hvis vi feilklassifiserer ingen sirculerende tumorceller men 100 blodceller. Men dette gir oss mye høyere dekning. Her kan vi faktisk studere alle sirkulerende tumorceller. Det var kanskje ikke så farlig at vi også hadde med noen blodceller.

Så her må vi tenke på måter å måle klassifikasjonsevnen. Vi så tidligere på nøyaktighet, presisjon, dekning, F1-score og log-loss. Hvilket av disse målene vi bruker er del av spørsmålet som vi må definere sammen med domeneekspertene.

Prosessen for å definere spørsmålet er iterativt. Vi spør domeneeksperten om deres spørsmålet. Så spør vi også om hva domeneekspertene vil gjøre med svaret. Så formulerer vi spørsmålet på en måte som gir mening for dataforskere. Deretter spør vi domeneekspertene om det oppdaterte spørsmålet gir mening. Og hvis ikke det gjør det, så kan vi gå flere runder med å finne ut mer og mer presist hva som er målet. Til slutt finner vi et spørsmål som dataforskeren og domeneekspertene kan være enige i.

Som del av forberedelse må vi også finne ut hva slags data som kan brukes for å svare på spørsmålet. Hva er datakilden? Hvor godt er kvaliteten av data? Er det andre data som er nyttige og tilgjengelige? Det som ofte skjer er at data kan brukes til å svare på et relatert spørsmål. Men er vi interessert i svare på dette spørsmålet? Det må domeneeksperten vurderes.

Vi trenger også kommunikasjon for å finne ut hva som er en god grunnlinjemodell. Ofte finnes det allerede en måte som blir brukt før vi begynner å bruke data. I så fall er det viktig å sammenligne med denne metoden.

Til slutt er det vår oppgave å informere om hva som er mulig. Begrensninger kan komme på grunn av tilgjengelig datamengde, datakvalitet, etiske problemstillinger, fysiske grenser og manglende interpretabilitet eller generaliserbarhet.

Kommunikasjon med dataforskere#

Dataforskere er det enkleste målpublikum. De bruker samme språk som oss, så vi kan si at vi har brukt en regresjonsmodell og evaluert det ved bruk av RMSE uten å forklare hva det betyr. Denne kommunikasjonen skjer ofte gjennom bruk av jupyter-notebook som kombinert analyse og rapport. Det inkluderer dokumentasjon av kode, beskrivelse av spørsmål og hvordan vi kom frem til den, beskrivelse av data, forklaring av hvorfor forskjellige metoder ble brukt, en beskrivelse av alle resultatene og hva slags konklusjon vi trakk ut av den.

Den andre kommunikasjonen som er typisk med dataforskere er å gi tilbakemeldinger. Å gi og å motta tilbakemelding er viktig for samarbeid i alle arbeidsmiljøer. Målet er at mottakeren lærer noe, eller får informasjon som hjelper til å forbedre løsninger. Det er viktig at alle på et lag klarer å gi og motta konstruktive tilbakemeldinger. Det er sånn vi forbedrer oss. Her er det viktig å huske at tilbakemelding er ikke det samme som bedømmelse, men at det skal være konstruktivt.

Gode tilbakemeldinger er spesifikke. Dette gjelder både positive og negative tilbakemeldinger. Vi hører ofte tilbakemeldinger som «Det var generelt bra jobbet, men aksebeskrivelsen på Figur 3 mangler». Her er den positive tilbakemeldingen veldig generelt. Det kan man ikke lære mye av. Tilbakemeldinger beskriver situasjonen og kanskje en alternativ situasjon uten å være kritisk. Det er bra å vise nysgjerrighet og kanskje stille spørsmål. «Hvorfor har du valgt å gjøre det på denne måten?» heller enn «Det er bedre å gjøre det på den andre måten.». Det kan ofte være bra å bruke jeg-uttalelser. Ikke «Du burde gjøre det på en annen måte» men heller «Jeg liker det bedre på denne andre måten.» Til slutt er det bra å fokusere på styrkene heller enn på svakhetene. Alle disse egenskapene av god tilbakemelding skal gjøre det enklere å motta tilbakemeldingen og bruke de til å forbedre prosjekter så mye som mulig.

Når det gjelder å motta tilbakemelding, så er det viktig å høre etter og å være åpen for tilbakemeldingen. Her er det ikke vår oppgave å forsvare arbeidet vårt. Målet vårt må være å finne ut hvordan å bruke tilbakemeldingen for å forbedre prosessen. Det skjer ofte at de som gir tilbakemelding har misforstått hva vi har gjort. Det er likevel nyttig tilbakemelding. I så fall betyr det at vi må beskrive det vi faktisk har gjort bedre. Av og til blir vi spurt om å gjøre noe som ikke er mulig. Da må vi finne ut hva som ligger bak tilbakemeldingen. Er det missforståelse eller har vi glemt å si hvorfor det ikke er mulig. Vi må også huske at tilbakemelding fra folk som er dårlig til å gi tilbakemelding kan likevel være nyttig. Selv om de gir generell og belærende tilbakemelding, så kan vi ofte finne noe i det som vil hjelpe ved å forbedre oss.

Når vi får tilbakemeldinger må vi også huske at det å gå tilbake i data science-processen og å fikse ting noen steg før den siste er en naturlig del av data science-processen og betyr ikke at vi har gjort noe feil.

Kommunikasjon med beslutningstakere#

Som vi har sagt før, så er målet med data science å bruke data for å få ny innsikt. Men det er ikke nok at vi får innsikt, denne innsikten må også kommuniseres. Vi må forklare og rettferdiggjøre hvordan vi kom til en konklusjon og hvor sikker denne konklusjonen er. Til slutt vil vi ofte at den nye innsikten skal føre til handling.

Det er et kjent sitat at «Gang på gang skjer det at noen uvitende medlem av en komité eller et styre forstyrrer den nøye gjennomtenkte planen av noen som kjenner fakta, rett og slett fordi den som kjenner fakta ikke kan presentere de godt nok til å overvinne motstanden. Som katedralen er til grunnlaget, så er en effektiv presentasjon av fakta til dataene.» Effektiv kommunikasjon av resulteter er en absolutt nøkelkompetanse for dataforskere.

Alle fortellinger i data science har i hvert fall fem deler. Det er en introduksjon som forklarer hva som er målet med dataanalysen og gir den nødvendige bakgrunnen om hva som har blitt gjort tidligere. Så kommer det en beskrivelse av data som ble brukt samt noe utforskende dataanalyse. Etter det så må vi beskrive hva slags metoder vi brukte for å modellere data og hvorfor vi valgte denne metoden. Det inkluderer en beskrivelse av modellutvalg og evaluering. Så må vi skrive hva vi fant ut. Og til slutt må vi konkludere med hva slags innsikt vi fikk ut av analysen. Her kan vi ofte også sammenligne med andre studier som har blitt gjort tidligere.

Når vi presenterer resultater må vi alltid spesifise hvilket datasett vi har brukt. For eksempel har vi visualisert den univariate fordelinger i treningsdata, vist en tabell med lokaliseringsmål og spredningsmål over alle variabler på treningsdata, lagd flere modeller på treningsdata, valgt ut den modellen med minst RMSE på valideringsdata, regnet ut generaliseringsfeilen for modellen på testdata.

En viktig ting vi må ta i betrakning er hva publikum tenker. Det er ofte hvorfor skal jeg bry meg. I introduksjonen må vi overbevise publikum at det vi snakker eller skriver om er relevant for de. Det er derfor introduksjonen alltid er en sentral del av hver fortelling

Så må vi huske at leseren eller tilhøreren av fortellingen vår trenger hele konteksten. Det er aldri nok å gi svaret. Jo mer kontekst vi gir, jo enklere blir det for publikum å stole på resultatene.

I data science fortellinger gjelder det samme som i alle andre fortellinger at et bilde sier mer enn tusen ord.

Det finnes mange mulige kommunikasjonsformer. Hva slags kommunikasjonsform vi bruker avhenger av situasjonen. Det kan være så enkelt som en dokumentasjon til koden eller en rapport. Men det kan også være presentasjoner eller videoer. Alle de former har litt forskjellige egenskaper.

Presentasjoner for eksempel består av lysark og en muntlig presentasjon. Målet er at lysarkene støtter den muntlige presentasjonen. Det er derfor viktig å ikke ha for mye informasjon på lysarkene, som gjør at publikum deler konsentrasjonen mellom presentasjonen og lysark. Generelt er det alltid bedre å bruke bilder og forklare de enn å bruke tekst. Presentasjoner har en viss tidsramme. Det er en stor forskjell om vi gir en 5 minutters-presentasjon eller en times presentasjon. For 5 minutt så må vi komme til poenget så fort som mulig og den viktigste forberedelser vi gjør er utvalg av materiale vi skal vise. Hvis vi presenterer i en time, så blir det viktigste at vi har en rød tråd gjennom hele presentasjonen og at tilhørere kan følge med. Til slutt en generell bemerkning. Presentasjoner må øves. Vi må vite hvor mye tid de krever og hva vi skal si på hvilket tidspunkt.

Til slutt kommenterer vi kort om reproduserbarhet. Hvis man vil kunne stole på resultatene sine, så bør de være reproduserbart. Det må være mulig å kjøre all koden på nytt når man er ferdig og så bør man få samme resultatet. For å gjøre det, bør vi bruke en tilfeldig seed når vi bruker metoder som bruker tilfeldighet. Vi bør aldri endre rådataene våre. Vi bør kjøre all koden på nytt for å sjekke at det fortsatt fungerer. Vi må bruke versjonskontroll og helst en virtull område som kan reproduseres. Når vi snakker om kommunikasjon, så anbefaler jeg å generere rapporter og presentasjoner så mye som mulig automatisk. Det gjør at hvis vi endrer på noe i dataforberedelse, så bruker vi alltid den nyeste versjonen av alle figurene våre i rapporten.