Data er mere end bare stort - det er også dybt

De to forfattere bag bogen "Big Data: Virksomhedens nye grundstof", Mikkel Holm Sørensen og Simon Bentholm

Hvad er Big Data?

Vi foretrækker at tale om den datadrevne virksomhed og/eller datastrategi. Ikke Big Data. Hvis vi skal svinge os mere idehistorisk op, kan man godt tale om en egentlig datarevolution, fordi omvæltningen er større end big og mere fundamental end blot omfang. Det er et kvalitativt skift, vi oplever nu, som følge af øget tilgængelighed, øget hastighed samt af automatiserede analyser af nye typer data. Også i forhold til de sociale data, som vi tidligere kaldte ”kvalitative”. Hvis man skal fremhæve noget ved Big Data, som er væsentligt i sit omfang, er det forskelligheden og ”redundansen” i data. Det er med andre ord ikke omfanget i simpel forstand, som bibringer noget nyt. Det handler snarere om, at huller i det ene datasæt udfyldes af data i et andet samtidig med, at datasæt generelt supplerer hinanden og skaber en langt dybere indsigt. Altså er det ikke kun en kvantitativ revolution, som begrebet Big Data antyder, men primært en kvalitativ revolution eller et faseskift. Det er informationssamfundet på steroider forstået på den måde, at videnarbejde ikke længere er forbeholdt mennesker. Almindelige produkter og genstande som sko, kaffemaskiner og containere kommunikerer og analyserer information på et internet, der ikke skelner mellem digitalt og ”den virkelige verden”. Og nej, vi har ikke røget fniseurt.

Hvad er det nye ved datarevolutionen?

Mange kender udtrykket viden er magt. Det indfanger meget godt, hvad datarevolutionen indeholder. Data bringer dog ikke kun viden i klassisk forstand, men også operationel viden i form af øget produktivitet, innovation, forbedret kundeindsigt, bedre service og helt nye forretningsmodeller – ikke mindst når vores evne til at indsamle, lagre og analysere når et vist niveau. Kombinationen af datas store potentielle værdi og genanvendelighed samt deres billige kostpris – de er oftest et biprodukt af eksisterende processer – giver data et enormt produktivitetspotentiale. Data er en helt ny ressource, som modsat tidligere epokers dominerende værdiskabere er næsten gratis.

Hvorfor er det så vigtigt?

Udover at være et modeord, så er data godt nyt for stater i velfærdsklemmer og virksomheder presset til det yderste på indtjening. Vi kender stadig ikke omfanget af datarevolutionen, men meget tyder på, at vi kan hente enorme produktivitetsforbedringer, mindske spild og ressourceforbrug samt finde veje gennem utallige udfordringer, vi primært selv har skabt. For eksempel ved at identificere de kritiske variable, der rummer svaret med automatiserede processer, som tidligere kun kunne blive blotlagt ved rene lykketræf. Vi kan lave kirurgiske indgreb, fordi vi ved hjælp af et enormt datagrundlag kan isolere præcis det. Det gjorde forskellen i strategi 1 og 2 for ulandsbistand, klima, trafikdøde og så videre. Der er en grund til, at infografikdesignere er tidens nye rockstjerner, og gamle rockstjerner er blevet dataseksuelle. Data er et vigtigt instrument til at finde sammenhænge mellem problemer og løsninger, fordi ”opløsningen” i vores spørgsmål og svar kan blive meget bedre. På samme måde er det ikke tilfældigt, at FN’s nyeste satsning hedder Global Pulse og er et dataprojekt. Derudover har World Economic Forum i flere år handlet om data. Og – tillad os at blive lidt langhårede her – til forskel fra oplysningsfilosoffernes vildeste drømme, så er vi ikke begrænset til indsigt. Vi behøver ikke nødvendigvis at forstå, hvorfor A virker bedre end B. Google ved ikke mere om mennesker end læger eller marketingsfolk, Amazon ikke mere end bibliotekarer. De ved blot, at denne søgning indikerer influenza, interesse for skisport eller bøger om Nietzsche. Når vi har adgang til så meget data og mulighed for at teste forskellige interventioners virkning, så er det pragmatisk godt nok at konstatere, at B virker hver gang. Data er ikke kun et middel til indsigt, men i lige så høj grad en mere præcis operationel ressource.

Hvad er de største misforståelser om Big Data?

En yndlingsaversion mod hypen er ordet ”big” (se for eksempel Peter Svarres kritik på Kforum). Vi gør en dyd ud af at give andre eksempler, som er mindst lige så revolutionerende uden at være ”big”. Tag for eksempel hele selvmålingsbølgen, som giver almindelige mennesker operationel selvindsigt og sandsynligvis bliver den vigtigste nyskabelse i både sundheds- og forskningssystemet – uden nødvendigvis at bero på kæmpe datamængder. Her er det et kort feedback-loop med nogenlunde validitet, som skaber adfærdsændringer i massevis og studier baseret på millioner af brugere af en diæt-app, som hver især er ”små data”. En anden misforståelse er, at Big Data ikke rigtig ”når ind” til det væsentlige (Red Associates kritik i Bloomberg). En kritik – typisk fremført af lidt pigesure humanister uden teknologisk indsigt – som er svær at tage seriøs, når algoritmer redder nyfødte børns liv ved at forudsige infektioner 24 timer før synlige symptomer opstår. Eller den danske app Monarca, som advarer bi-polære mennesker, når de er på vej mod depression eller mani blandt andet ud fra tonen i deres stemme, hastigheden af deres bevægelser og antal tastefejl. Disse eksempler er i vores terminologi dyb og væsentlig indsigt bibragt af rent kvantitative data, som selv observerende eksperter ikke kan konstatere. I stedet for at bevare traditionelle skyttegrave mellem kvantitative ”store” og kvalitative ”dybe” analyseformer, burde mange i sociale videnskaber og humanistiske fag tage disse nye værktøjer til sig med glubsk appetit. Vi spår det næste store akademiske modefag til at være samfundsvidenskabeligt på grund af nye metoder til at kortlægge menneskers adfærd, ytringer, samvær, forbrug og fysiske tilstande som variable i samme billede.

Hvad er et godt konkret eksempel på datastrategi?

Et godt eksempel er Netflix, som har bevæget sig fra at være distributør af medieindhold til at være producent. Netflix anvender ligesom andre algoritmer til at anbefale indhold,på baggrund af kendskab til, hvad brugere, der ligner dig, kan lide. Netflix har taget disse data et skridt videre, og med det ændret fødekæden i indholdsproduktion. De brugte seernes præferencer til at genindspille en ældre BBC-miniserie ved navn House of Cards. Da Netflix hørte, at David Fincher og Kevin Spacey legede med tanken om at genindspille serien, så de straks efter i deres database. Her fandt Netflix, at brugere, som så den gamle udgave af serien eller andre politiske thrillere, også typisk så film af David Fincher eller med Kevin Spacey. Og så var konklusionen klar: House of Cards med Fincher og Spacey bør blive en succes. De stolede så meget på deres data, at de lagde 100 mio. dollars for 26 afsnit uden at se et testafsnit og dermed snuppede serien for næsen af giganter som HBO. Samtidig tillod Netflix, at samtlige første 13 afsnit blev lagt online samtidig. Deres data viser nemlig, at folk, der ser serier sammenhængende, er mere loyale over for serier. Netflix ændrede hermed på deres forretningsmodel, fra platform til indholdsproducent. Endda på en måde, som de kreative tog imod med åbne arme. Indholdet blev også bedre. Netflix kan ofre flere penge på produktionen på grund af den større sandsynlighed for at få pengene tilbage. Netflix kan endog tillade større kunstneriske eksperimenter i tillid til seerenes præferencer for genre, instruktør og hovedrolle. Fra produktionsselskab til Kevin Spacey lyder det samstemmende: Vi fik frie tøjler og kunne udvikle fortælling og karakterer meget bedre, fordi vi ikke skulle lave et første afsnit, der skulle forsøge at indfange hele serien på 45 minutter eller skabe unaturlige cliffhangers i hvert afsnit for at få folk tilbage næste uge. Netflix gav med ét gamle kabel-mastodonter baghjul, de var en mere interessant samarbejdspartner for de kreative, og de ændrede deres forretningsmodel og magtforholdet i branchen – blot ved hjælp af brugerdata (og lidt is i maven).

Det lyder bare som traditionel Datamining. Hvad er forskellen?

Eksemplet med Netflix handler om at anvende data til at tippe hele markedet med en ny forretningsmodel. Hvad angår netop databaserede forretningsmodeller, har vi kun set begyndelsen. Google, Amazon og Netflix er variationer af samme model, men mulighederne er bestemt ikke udtømte – tværtimod. Vestas er begyndt at rådgive købere om optimal placering af møllen for størst produktion og mindst slitage, ud fra data fra alle Vestas øvrige møller samt en meget kraftig computer. Det giver den merværdi, som – måske – kan berettige en højere produktionspris. Næste skridt er måske at tage konsekvensen fuldt ud og ikke længere sælge møller, men strøm som en leasingmodel. Igen er argumentet, at forholdet mellem prisen på ressourcen og dets værdiskabelse er meget stor og i Vestas tilfælde med til at ændre hele markedet. Samtidig bliver selve ”produktionsapparatet” ofte et R/D-laboratorium, der muliggør live A/B-tests af små variationer. Google eller Amazon viser sjældent en endelig side, men hele tiden små variationer, der testes for effekt i en nærmest evolutionær variations- og selektionsproces. Det giver meget stor innovationsevne og adaptivitet til markedet – og koster ikke nær det samme som lange offline produktudviklingsprocesser.

Hvad betyder data, og hvad vil det helt konkret betyde for mig og min virksomhed?

I flere og flere markeder findes der ikke de datadrevne og de traditionelle virksomheder. Tænk bare på mediebranchen. Eftersom data bliver grundlaget for meget service på grund af kundeindsigt, for megen innovation på grund af dataminering af subtile brugsmønstre eller optimering af drift gennem bedre analyse af vareflow eller efterspørgsel, så er det svært at se, hvor data ikke kan spille en rolle i enhver virksomhed. Det er med andre ord ikke et enten/eller, men blot hvordan og hvornår du vil blive datadrevet. Vi tror, at data bliver så triviel en ressource, at vi ikke engang gider at fremhæve det om ti år. Vi taler jo ikke om ”el-drevet” eller ”computer-drevet” virksomhed.

Hvorfor er Big Data ikke bare hype og tomme kalorier?

Big data er primært hype i bedste amerikansk management-stil. Den datadrevne virksomhed er derimod ren snusfornuft, som selv middelstore produktionsvirksomheder vil få øjnene op for. Datarevolutionen er i et større perspektiv så omfattende en udvikling (derfor termen), at den kun vil blive brugt af historikere om 20 år. Vi andre kommer blot til at leve i det med største selvfølgelighed, som vi i dag gør med el, internet og trykpressen. Vi har valgt at anvende metaforen grundstof for at indfange, hvor grundlæggende og uendeligt mangfoldig en ressource data er blevet. Der er ikke tale om et ”ekstra lag” oven på organisationen, men et helt nyt grundstof i driften, ydelserne og forretningen.

Hvad er budskabet i jeres bog Data – virksomhedens nye grundstof?

Datastrategi er et nyt periodisk system, som virksomheder bare skal lære, så de kan lige så godt komme i gang. Det er ikke farligt og kræver ikke nødvendigvis en serverpark i Finland og et hold ph.d.’ere i datalogi. Omvendt bilder vi ingen ind, at det er let at blive en datadreven virksomhed. Men barriererne ligger et andet sted, end mange tror. Vi opererer med tre aspekter af datarevolutionen: forretning, teknologi og mennesker. Nogle forventer nok, at teknologi fylder mest i bogen, men vores pointe er, at det er den forretningsmæssige forståelse af data som ressource og ikke mindst udfordringerne med at få organisationer til at forstå denne ”abstrakte” ressource, som vil volde størst problemer.

Hvilken rolle kan vi som kommunikatører spille i den datadrevne organisation?

Vi bruger i bogen en del energi på at redegøre for, hvordan de organisatoriske og kognitive barrierer er de mest udfordrende for datastrategisk arbejde. Her er evnen til at formidle datas mening og betydning i fortællinger og visualiseringer altafgørende. Vi anbefaler ligefrem kommende data-ledere at knytte dataformidlere tæt til sig, hvis de skal gøre sig håb om at vinde forretningens dagsorden. Data er for langt de fleste mennesker nemlig et goldt medium og kræver kyndige fødselshjælpere til at udtrække mening. Data kan være en gave for den kommunikationsfaglige, der ønsker at kravle tilbage mod toppen af organisationen, hvor direktionen nok aner potentialet, men ikke selv har hverken flair for data eller tillid til, at dataanalytikerne selv finder de forretningskritiske guldkorn.

Hvordan bliver min organisation datadrevet?

Ja, se det er det helt store spørgsmål. Der findes desværre ingen one-size-fits-all-opskrift. Datastrategi kan opstå af tilfældigheder, af nød, af lyst eller måske på grund af en enkelt medarbejders passion. Vi vover alligevel en tretrinsmetode i bogen, så nybegyndere ikke mister modet på forhånd. Afsættet og rammen er næsten altid ledelsens opgave, der bør definere strategiske mål med projektet, der bør udpege et team af ”dataprenører” med forskelligartet faglighed og der bør afsætte ressourcer. Og så bør projektet afgrænses i omfang og tid, i bedste Lean-Start-Up-manér. Herefter sættes et projekt i gang, og vi anbefaler disse tre overordnede trin:

Kortlæg: Dataprenørerne formulerer en håndfuld spørgsmål, hvis besparelse bringer dem nærmere det strategiske mål, der er defineret af ledelsen. De danner et overblik over data og kilder og identificerer data i og uden for virksomheden, som vil kunne anvendes til at besvare spørgsmålene.

Sortér: Når relevante data er identificeret, skal de renses, ensartes og oftest sammenkøres for at kunne svare på dataprenørernes spørgsmål. Det er dette, som de fleste forstår ved datastrategi, og det kræver en hvis teknologisk og statistisk faglighed, som kan kræve ekstern bistand. Processen er oftest cirkulær, da interessante svar peger på nye spørgsmål og så fremdeles. Når gruppen af dataprenører finder noget, der rummer værdi og virker robust, er det tid til at teste.

Validér: Dataprenørerne stresstester deres fund. Skyldes mønstrene tilfældige sammenfald, har de også testet svar, som ville modbevise hypotesen, eller skyldes mønstret blot en forbigående variabel? Når dataprenørerne på skift har spillet djævlens advokat og testet data med forskellige angrebsstrategier, er de klar til at formulere en business-case og præsentere det for ledelsen: Hvad ville organisationen vinde, spare eller opnå ved fuld implementering af fundet? Hvad kræver det af tid og ressourcer? Kræver fundene en pilot som test, eller har de skabt noget direkte implementerbart?

Oftest vil der komme en lang proces herefter med at implementere og teste nye spørgsmål af. Datastrategi skal testes i organisationen, førend man kan konkludere potentialet. Men i grundtrækkene bør ovennævnte tre trin være nok til at skabe den første lille succes, eller i det mindste give virksomheden blod på tanden.

Kan I anbefale andre bøger eller links om data, som man bare bør læse?

Big Data: A Revolution That Will Transform How We Live, Work, and Think af Viktor Mayer Schönberger og Kenneth Cukier. Førstnævnte besøger CBS’ Big Data Forum den 18. september. Bogen er en af de få bøger om Big Data med en smule perspektiv, som samtidig behandler hypen meget sobert. Nate Silvers The Signal and the Noise: Why So Many Predictions Fail — but Some Don't er en saglig og moderat stemme til at lægge en dæmper på hysteriet. Endelig er iPad-App’en The Human Face of Big Data en rigtig god coffee table-bog om emnet.

Læs Timme Bisgaard Munks anmeldelse af bogen her.