Alt du ønsket å vite om datautvinning, men var redd for å spørre
En guide til hva data mining er, hvordan det fungerer og hvorfor det er viktig.

Big data er overalt hvor vi ser i disse dager. Bedrifter faller over seg selv for å ansette 'dataforskere', personvernforkjempere er bekymret for personopplysninger og kontroll, og teknologer og gründere streber etter nye måter å samle inn, kontrollere og tjene penger på data. Vi vet at data er kraftige og verdifulle. Men hvordan?
Denne artikkelen er et forsøk på å forklare hvordan datautvinning fungerer og hvorfor du bør bry deg om det. For når vi tenker på hvordan dataene våre brukes, er det avgjørende å forstå kraften i denne praksisen. Uten datautvinning, når du gir noen tilgang til informasjon om deg, er alt de vet hva du har fortalt dem. Med data mining vet de hva du har fortalt dem og kan gjette mye mer. Sagt på en annen måte lar datautvinning selskaper og myndigheter bruke informasjonen du gir til å avsløre mer enn du tror.
Data mining lar selskaper og myndigheter bruke informasjonen du gir til å avsløre mer enn du tror.
For de fleste av oss går datautvinning noe sånt som dette: tonnevis av data samles inn, så utfører kvant-trollmenn sin mystiske magi, og så vet de alt dette fantastiske. Men hvordan? Og hva slags ting kan de vite? Her er sannheten: til tross for at den spesifikke tekniske funksjonen til data mining-algoritmer er ganske kompleks -- de er en svart boks med mindre du er en profesjonell statistiker eller informatiker -- bruken og egenskapene til disse tilnærmingene er faktisk, ganske forståelig og intuitiv.
For det meste forteller datautvinning oss om veldig store og komplekse datasett, den typen informasjon som er lett synlig om små og enkle ting. Den kan for eksempel fortelle oss at ' en av disse tingene er ikke lik den andre ' a la Sesame Street eller den kan vise oss kategorier og deretter sortere ting i forhåndsbestemte kategorier . Men det som er enkelt med 5 datapunkter er ikke så enkelt med 5 milliarder datapunkter.
Og i disse dager er det alltid mer data. Vi samler langt mer av det så vi kan fordøye. Nesten hver transaksjon eller interaksjon etterlater en datasignatur som noen et sted fanger og lagrer. Dette er selvfølgelig sant på internett; men allestedsnærværende databehandling og digitalisering har gjort det stadig mer sant om livene våre borte fra datamaskinene våre (har vi fortsatt slike?). Selve omfanget av disse dataene har langt overskredet menneskelige sansningsevner. På disse skalaene er mønstre ofte for subtile og forhold for komplekse eller flerdimensjonale til å observere ved ganske enkelt å se på dataene. Data mining er et middel for å automatisere en del av denne prosessen for å oppdage tolkbare mønstre; det hjelper oss å se skogen uten å gå seg vill i trærne.
Å oppdage informasjon fra data tar to hovedformer: beskrivelse og prediksjon. På den skalaen vi snakker om er det vanskelig å vite hva dataene viser. Data mining brukes til å forenkle og oppsummere dataene på en måte som vi kan forstå, og deretter tillate oss å utlede ting om spesifikke tilfeller basert på mønstrene vi har observert. Selvfølgelig er spesifikke anvendelser av datautvinningsmetoder begrenset av data og datakraft som er tilgjengelig, og er skreddersydd for spesifikke behov og mål. Det finnes imidlertid flere hovedtyper av mønsterdeteksjon som er ofte brukt. Disse generelle skjemaene illustrerer hva data mining kan gjøre.
Anomalideteksjon : i et stort datasett er det mulig å få et bilde av hvordan dataene pleier å se ut i et typisk tilfelle. Statistikk kan brukes til å finne ut om noe er spesielt forskjellig fra dette mønsteret. For eksempel kan IRS modellere typiske selvangivelser og bruke avviksdeteksjon for å identifisere spesifikke avkastninger som avviker fra dette for gjennomgang og revisjon.
Foreningslæring: Dette er typen datautvinning som driver Amazons anbefalingssystem. Dette kan for eksempel avsløre at kunder som kjøpte en cocktailshaker og en cocktailoppskriftsbok også ofte kjøper martini-glass. Denne typen funn brukes ofte til målretting av kuponger/tilbud eller annonsering. På samme måte ligger denne formen for datautvinning (om enn en ganske kompleks versjon) bak Netflix-filmanbefalingene.
Klyngedeteksjon: en type mønstergjenkjenning som er spesielt nyttig er å gjenkjenne distinkte klynger eller underkategorier i dataene. Uten datautvinning ville en analytiker måtte se på dataene og bestemme seg for et sett med kategorier som de mener fanger opp de relevante forskjellene mellom tilsynelatende grupper i dataene. Dette vil risikere å gå glipp av viktige kategorier. Med data mining er det mulig å la dataene selv bestemme gruppene. Dette er en av sorte boks-algoritmer som er vanskelige å forstå. Men i et enkelt eksempel - igjen med kjøpsatferd - kan vi forestille oss at kjøpsvanene til forskjellige hobbyfolk vil se ganske forskjellige ut fra hverandre: gartnere, fiskere og modellflyentusiaster vil alle være ganske forskjellige. Maskinlæringsalgoritmer kan oppdage alle de forskjellige undergruppene i et datasett som skiller seg betydelig fra hverandre.
Klassifisering: Hvis en eksisterende struktur allerede er kjent, kan datautvinning brukes til å klassifisere nye tilfeller i disse forhåndsbestemte kategoriene. Ved å lære av et stort sett med forhåndsklassifiserte eksempler, kan algoritmer oppdage vedvarende systemiske forskjeller mellom elementer i hver gruppe og bruke disse reglene på nye klassifiseringsproblemer. Spamfiltre er et godt eksempel på dette – store sett med e-poster som har blitt identifisert som spam har gjort det mulig for filtre å legge merke til forskjeller i ordbruk mellom legitime og spam-meldinger, og klassifisere innkommende meldinger i henhold til disse reglene med høy grad av nøyaktighet.
Regresjon: Data mining kan brukes til å konstruere prediktive modeller basert på mange variabler. Facebook kan for eksempel være interessert i å forutsi fremtidig engasjement for en bruker basert på tidligere atferd. Faktorer som mengden personlig informasjon som deles, antall bilder merket, venneforespørsler initiert eller akseptert, kommentarer, likes osv. kan alle inkluderes i en slik modell. Over tid kan denne modellen bli finpusset til å inkludere eller vekte ting annerledes ettersom Facebook sammenligner hvordan spådommene skiller seg fra observert atferd. Til syvende og sist kan disse funnene brukes til å veilede design for å oppmuntre til mer av atferden som ser ut til å føre til økt engasjement over tid.
Mønstrene som oppdages og strukturer som avsløres av den beskrivende datautvinningen, brukes ofte for å forutsi andre aspekter av dataene. Amazon tilbyr et nyttig eksempel på hvordan beskrivende funn brukes til prediksjon. Den (hypotetiske) assosiasjonen mellom kjøp av cocktailshaker og martiniglass, for eksempel, kan brukes, sammen med mange andre lignende assosiasjoner, som en del av en modell som forutsier sannsynligheten for at en bestemt bruker vil foreta et bestemt kjøp. Denne modellen kan matche alle slike assosiasjoner med en brukers kjøpshistorikk, og forutsi hvilke produkter de mest sannsynlig vil kjøpe. Amazon kan deretter vise annonser basert på hva brukeren mest sannsynlig vil kjøpe.
Data mining, på denne måten, kan gi enorm slutningskraft. Hvis en algoritme korrekt kan klassifisere en sak i kjent kategori basert på begrensede data, er det mulig å estimere et bredt spekter av annen informasjon om den saken basert på egenskapene til alle de andre sakene i den kategorien. Dette høres kanskje tørt ut, men det er hvordan de fleste vellykkede internettselskaper tjener pengene sine og hvor de henter kraften sin.
Bilde: Reuters.