Big Data - Big Bullshit?

Har du nogensinde brugt Google Translate til at oversætte et ord fra engelsk til dansk? Har du fået anbefalet en film på Netflix? Eller har du mødt en besynderligt genkendelig annonce for næsehårsfjernere få dage efter, at du ledte efter næsehårsfjernere på Amazon? Hvis du kan svare bekræftende, er du blevet ramt af Big Data.
Du har – uden at vide det – været kunde i en global industri bygget op omkring personlige og forretningsmæssige data, hvor virksomheder indsamler, udveksler, bearbejder og bruger massive mængder af data for at skabe bedre kundeoplevelser, personaliserede websider og øget salg af deres produkter.
 
Skal man stole på managementtidsskrifter som Harvard Business Review og McKinsey Quarterly, så er Big Data ”the next big thing” i erhvervslivet. Har du ikke en Big Data-strategi, kan du lige så godt rulle om på skjoldet sammen med staklerne, der ikke nåede at udvikle en strategi for sociale medier. Virksomheder indsamler konstant terrabytes og petabytes af data, og forbrugerne er oven i købet selv begyndt at bidrage aktivt fra GPS’er, skridtællere, pulsmålere, blodsukkermålere og så videre.
 
I denne verden af omnipresente data er det kun tabervirksomheder, der ikke forstår at udnytte alt dette dataguld, der ligger og flyder i gaderne. Det skal jo bare samles op, pudses af og så bruges til virksomhedens fordel.
 
Harvard Business Review’s fortolkning af udfordringen med Big Data
 
Overlydshastighed
Big Data kører i overlydshastighed i hype-begrebernes yderste overhalingsbane, hvor alle kan se de enorme værdier, men hvor de færreste har den fjerneste anelse om, hvordan man renser dataguldet ud af den snavsede og hårde klippe. Scenen er sat for ”The Big Data Bluff”, hvor data-kvaksalvere og amatøristiske virksomheder i fællesskab kommer til at brænde milliarder af kroner af på meningsløse regressioner og katastrofale korrelationer. Som med alle andre hypede begreber er der virkelig værdi i Big Data, men i de forkerte hænder er Big Data i bedste fald spild af penge og i værste fald en trussel mod det enkelte menneskes frihed og privatliv.
 
Hvad er Big Data?
Som navnet antyder handler Big Data om store mængder af data. Internettet, digitalisering, mobile enheder, indbyggede sensorer og enorme harddiske har betydet, at de tilgængelige datamængder er vokset eksponentielt inden for de seneste ti til tyve år. Og ikke alene er datamængderne steget eksponentielt, vores computerkraft og dermed evne til at behandle data er steget tilsvarende hurtigt. Denne eksponentielle vækst har betydet, at de store datamængder ikke længere bare skaber et kvantitativt skift, men derimod et kvalitativt skift i forhold til, hvordan vi bruger data.
 
Da jeg for tyve år siden læste statistik på Institut for Statskundskab i København var databehandling en krævende og tidskrævende manøvre, som krævede udsendelse af papirspørgeskemaer, manuel indtastning af data og langsommelig processoren på de arkaiske computere. I en sådan verden er man omhyggelig, sparsommelig og grundig i sin omgang med data. Man spørger ikke om for meget, og man er fokuseret i sine hypoteser, fordi man ikke har tid og ressourcer til at stille alle spørgsmål og undersøge alle hypoteser.
 
Tiden hvor data var en håndgribelig størrelse, som skulle vælges med umage, er forbi. I dag bliver næsten alt data indsamlet og bearbejdet, så kun en maskine er i stand til at forholde sig til noget som helst
 
Du kan ødsle med data
Sådan forholder det sig ikke i Big Data-tidsalderen. Når (næsten) alle data kan blive og bliver indsamlet, og når det ikke koster noget synderligt at analysere data, giver det ikke længere mening at være sparsommelig med data og datakraft. Man kan bare hælde data ind i maskinerne og vente på, at maskinerne automatisk finder sammenhængene og sprøjter dem ud i lækre, farverige grafer og figurer. I den gamle verden var vi nødt til at udvikle hypoteserne og derefter lede efter sammenhængene i data. I dag kan vi lade computerne finde sammenhængene i data.
 
Big Data’s hellige haller
På Statskundskabsstudiet i 1990’erne kaldte man foragteligt denne form for statistisk metode for data-mining, og man blev kraftigt formanet at holde sig langt fra denne kætterske computer-drevne form for overfladeforskning. I dag er data-mining gået fra at være en kættersk sekt til at være den herskende religion.
 
De fleste mennesker ville nok betegne Google som en søgemaskinevirksomhed, men i virkeligheden er Google en Big Data-virksomhed. Google er en virksomhed, som bruger store datamængder til at løse komplekse problemer, som man tidligere har forsøgt at løse med menneskeskabte og regelbaserede systemer. Google Translate er en oversættelsesmaskine, der ikke kender til sproglige regler, men som udelukkende baserer sine oversættelser på milliarder af korrelationsanalyser, der har ”lært” Googles computere, at når nogen skriver ”big” på engelsk, så betyder det nok ”stor” på dansk. Googles personaliserede søgeresultater er baserede på tilsvarende mange korrelationsanalyser, som har ”lært” Google, at når jeg søger på ”Big Data”, så vil jeg nok være mest interesseret i Wikipedias opslag om samme emne. Og når Google lige nu kører rundt i San Franciscos gader med en førerløs bil, så er det ikke fordi, at de har lært computeren i bilen alle reglerne for, hvordan man kører bil. Nej, de har simpelthen ladet en computer crunche så mange data fra bilture, at bilen til slut selv lærer, hvordan man manøvrerer i trafikken.
 
De fleste mennesker ville nok betegne Google som en søgemaskinevirksomhed, men i virkeligheden er Google en Big Data-virksomhed
 
Film, bøger og bannere
Og Google er ikke alene om at være en Big Data-virksomhed. Amazon ligner en virksomhed, der sælger fysiske produkter via nettet, men i virkeligheden er Amazon en Big Data-markedsplads, der lever af at bruge data til at bringe købere og sælgere i kontakt med hinanden. Netflix er en streaming-ideportal, men en stor del af Netflix’ kerneforretning ligger i den avancerede Big Data-anbefalingsmaskine, der sikrer, at jeg altid får præsenteret relevante film, når jeg logger ind på Netflix. Og DoubleClick er en global clearing-virksomhed for internetannoncering, der bruger Big Data til at sikre, at de rigtige bannerannoncer dukker op foran de rigtige øjne, uanset hvor på nettet disse øjne befinder sig.
 
Hemmeligheden bag Big Data
Virksomheder som Google, Amazon, Netflix og DoubleClick har succes med Big Data af tre årsager.
For det første fordi de som udgangspunkt er Big Data-virksomheder. Big data er ikke bare et redskab, de bruger til at optimere deres forretning. Big Data ER deres forretning.
 
For det andet fordi ingen af disse virksomheder har behov for at kende til ”hvorfor”, men kan drive en forretning udelukkende på ”hvad” og ”hvordan”. For at køre en bil gennem San Franciscos gader behøver Googles bil ikke vide, hvorfor man skal stoppe for rødt, den behøver bare at vide, hvad et rødt lys er, og hvordan den skal forholde sig til det. Statistik og data er fantastiske redskaber til at få svar på ”hvad” og ”hvordan”, men er typisk temmelig dårlige redskaber til at svare på ”hvorfor”-spørgsmål.
 
For det tredje fordi de (med enkelte undtagelser) beskæftiger sig med ret ufarlige spørgsmål, hvor det er okay at tage fejl et statistisk kontrolleret antal gange. Hvis DoubleClick viser mig en annonce, som ikke er hundrede procent relevant, er der ingen, der tager skade. DoubleClick tjener en smule færre penge, men det er ikke en katastrofe, så længe de bare statistisk set rammer plet flere gange end de rammer ved siden af. Big Data egner sig derfor fantastisk til markedsføring og lignende discipliner, hvor det ikke handler om at ramme plet hver gang, men snarere om, at ramme en lille smule mere plet, end man kunne uden Big Data.
 
Google's robotbil behøver ikke vide, hvorfor den skal stoppe for rødt. Den behøver bare at vide, hvad et rødt lys er, og hvordan den skal forholde sig til det. Statistik og data er fantastiske redskaber til at få svar på ”hvad” og ”hvordan”, men er typisk temmelig dårlige redskaber til at svare på ”hvorfor”-spørgsmål, hvilket mange virksomheder faktisk har behov for
 
Hvorfor Big Data bliver en katastrofe i din virksomhed
De tre årsager til at Big Data fungerer for Google, Amazon, Netflix og DoubleClick er præcis de samme årsager til, at Big Data kommer til at blive en katastrofe og en massiv tabskilde for de fleste andre virksomheder.
 
Du er ikke en Big Data-virksomhed!
Tænk på din egen virksomhed og spørg dig selv, om du arbejder i en Big Data-virksomhed. Da du læser denne artikel på dansk, er der en meget stor sandsynlighed for, at svaret er nej. Der findes nemlig stort set ingen rigtige Big Data-virksomheder i Danmark. I modsætning til Google er din virksomhed ikke funderet på data, den er sandsynligvis funderet på at producere, at markedsføre og at sælge nogle produkter. Med andre ord har du ikke organisationen, teknologien eller personalet, der er i stand til at udnytte værdien af Big Data. Big Data vil for din virksomhed være noget, I skal lære at integrere i en eksisterende organisation – og det er på ingen måder nemt.
 
Big Data handler om mere end milliarder af regressionsanalyser. Det handler også om at forstå, hvordan man ordner, systematiserer og fortolker data. Data taler ikke bare deres eget sprog. Man er nødt til at kende datas muligheder og særligt deres begrænsninger, hvis man vil bruge Big Data forretningsmæssigt.
 
Man begynder allerede at kunne observere en spirende underskov af data-kvaksalvere, der forsøger at sælge virksomheder alle mulige forskellige data-produkter, men er man ikke selv en Big Data-virksomhed, bør man holde sig langt fra data-kvaksalverne, fordi man ikke er i stand til at gennemskue, hvordan produkterne egentlig er skruet sammen. Det farlige ved Big Data er, at det meste af analysearbejdet foregår i et magisk, kompliceret computersystem, og derfor kan det være fristende at falde for billige salgstricks fra data-kvaksalvere, der trækker lyserøde datakaniner op af hatten.
 
Danske virksomheder skal ikke tro på alle, der påstår at kunne løse deres problemer og hæve deres omsætning ved hjælp af Big Data. Der er masser af data-kvaksalvere derude, så pas på
 
Big Data giver dig ikke svar på ”hvorfor”
Den anden årsag til at Big Data næppe kommer til at fungere i din virksomhed er, at du sandsynligvis har behov for at svare på ”hvorfor”-spørgsmål. Forestil dig, at din virksomhed har en fem år gammel webside, som du gerne vil have relanceret. Du forelægger sagen for din chef, og han spørger dig naturligvis om, hvorfor websiden bør fornyes. Du kan lave tusindvis af web-metrics-analyser og spørgeskemaundersøgelser, men du vil aldrig nogensinde kunne trække svaret på det spørgsmål ud af selv den største bunke data. I sidste ende handler mange – og måske endda de fleste – kritiske forretningsbeslutninger om en kombination af viden, erfaring og vovemod. Data kan hjælpe dig med at tage en beslutning, men de kan ikke give dig svaret på hvorfor.
 
Er det overhovedet lovligt?
Den tredje grund til at Big Data nok ikke kommer til at fungere i din virksomhed, er, at I sandsynligvis ikke udelukkende arbejder med ufarlige produkter. Forestil dig, at du arbejder i en forsikringsvirksomhed, der (på en eller anden måde) har fået adgang til kundernes selv-monitoreringsdata. Med andre ord sidder I inde med data om kundernes motionsvaner, geografiske bevægelser, spisevaner og meget mere, som folk gladelig deler via deres sociale medier.
 
I har kørt alle disse data igennem Big Data-maskinen nede i kælderen, og nu kan I se, at 20 procent af jeres kunder bør have opsagt deres forsikringer, fordi de sandsynligvis får et hjerteslag inden for de næste 10 år. Problemet er, at usikkerheden på data er relativ høj, så I risikerer at smide i hvert fald 5000 mennesker ud af forsikringsordningen, selvom de på ingen måde er i risikozonen for at få et hjerteanfald. Hvad gør I? Og er det overhovedet lovligt?
 
Big Data kommer til at skabe dilemmaer og udfordringer, som er uoverstigelige både fra et praktisk og juridisk standpunkt.
 
De to grundlæggende problemer med Big Data
Konklusionen er ganske klar. Er du ikke en Big Data-virksomhed, bør du som udgangspunkt være ret forsigtig med at kaste dig ud i brugen af Big Data. Vælger du alligevel at gå planken ud i det store Big Data-ocean, bør du være opmærksom på de to væsentligste faldgruber:
 
Når Redskins vinder, vinder præsidenten
Den første faldgrube hænger sammen med, at store datamængder med usvigelig statistisk sikkerhed har en evne til at generere tilfældige sammenhænge. Siden 1936 har man kunnet observere, at når det amerikanske football-hold Redskins vandt deres sidste hjemmekamp før et præsidentvalg, så ville det regerende parti beholde magten i Det Hvide Hus. I mange år var der perfekt korrelation i forholdet mellem vundne kampe og valgte præsidenter, hvilket enhver jo med det blotte øjne kan konstatere er meningsløst, og det blev da også bevist i 2004, hvor både Redskins og John Kerry tabte. Verden er fyldt med tilfældige statistiske sammenhænge, og hvis man bare har tilstrækkeligt mange data at grave i, kan man være tæt på hundrede procent sikker på at rende ind i nogle af disse sammenhænge.
 
Møder du derfor data-kvaksalvere, der forsøger at sælge dig interessante og eksotiske produkter, der lover at finde hemmelige og skjulte sammenhænge i dine forretningsdata, så husk lige at bruge din sunde fornuft og spørg data-kvaksalverne, hvordan de når frem til deres konklusioner. Er svaret noget med, at analyserne foregår med nogle multipelkorrespondancebaserede regressionsanalytiske cloud-teknikker, så bør du løbe skrigende væk så hurtigt som muligt.
 
Ud fra data genererer computeren selv en hypotese, der passer til resultaterne. Derfor kan den i princippet godt være tilfældig, som fx hypotesen om, at når det amerikanske football-hold Redskins vinder deres sidste hjemmekamp før et præsidentvalg, beholder det regerende parti magten i Det Hvide Hus
 
The owls are not what they seem
Den anden faldgrube hænger sammen med, at data ikke altid betyder det, man umiddelbart tror. Jeg arbejdede i mange år i web-metrics-branchen, hvor man lever af at analysere data fra brugernes besøg på websider. I denne branche er man ofte sygeligt fokuseret på exit-siden. Altså den sidste side, som brugere besøger på en webside, før de går videre til et andet sted på internettet. Exit-siden var djævelen selv i denne branche. Den blev fremhævet som den forfejlede og kedelige side, som skræmte brugerne væk fra websiden, og rådet fra web-metrics-konsulenter var, at man som virksomhed skulle fokusere på at optimere exit-siden, så man ikke mistede flere kunder.
 
Men er exit-sider egentlig så dårlige? Kunne exit-siden ikke lige præcis være den side, hvor brugerne fandt, hvad de søgte, hvorefter de tilfredse kunne forlade websiden? Google er jo eksempelvis en virksomhed, der har opbygget en milliardvirksomhed omkring en særdeles velfungerende exit-side – nemlig deres søgeside. Problemet ved exit-sider er, at vi kan kvantificere dem til døde, men vi ved faktisk ikke, hvad de betyder. Folk kan have forladt websiden via denne side, fordi de var utilfredse, tilfredse eller komplet ligeglade. Data er data, og det er ikke altid, at data har et sammenhængende budskab.
 
Skal vi bruge Big Data til at træffe meningsfulde beslutninger, hvor vi ved, hvorfor vi træffer disse beslutninger, så er vi også nødt til at forstå, hvad de grundliggende data egentlig betyder. Og særligt er man nødt til at være opmærksom på, at nogle data ganske simpelt ikke betyder noget.
 
Et nyttigt redskab
Big Data er kommet for at blive, og der er ingen tvivl om, at både vores privat- og arbejdsliv i fremtiden vil blive spundet ind i spindelvæv af Big Data-services, som vil gøre vores dagligdag mere personaliseret, behagelig og produktiv. Men størstedelen af disse services vil blive leveret af højt specialiserede Big Data-virksomheder, der ikke laver andet end at crunche data. For alle andre typer af virksomheder vil Big Data ende med at være et nyttigt redskab, men også et redskab som man skal tilgå med stor omhu og forsigtighed – ganske ligesom man bruger alle andre forretningskritiske redskaber.
 
 

Del artikel

Tilmeld dig vores nyhedsbrev

Vær på forkant med udviklingen. Få den nyeste viden fra branchen med vores nyhedsbrev.

Forsiden lige nu

Læs også