Mikä on suuri, mahtava ja tietää sinusta kaiken?


Teksti · words

Se on big data. Jos pilvipalveluun ladatut julkkisten alastonkuvatkaan eivät ole turvassa, onko mikään?

Screen Shot 2014-09-18 at 00.54.37

Yhdysvaltain varapresidentti väijyy washingtonilaisen metroaseman varjoissa nuorta naista. Nainen on journalisti, joka on saamassa varapresidentin kiinni USA:n historian suurimmasta poliittisesta skandaalista. Juuri ennen kuin metro syöksyy tunnelista, varapresidentti tönäisee naisen kiskoille metron alle ja pakenee.

Kyse ei ole oikean varapresidentin, Joe Bidenin epätoivoisesta tempusta vaan hittisarja House of Cardsin kohtauksesta. Nettisarja liimasi miljoonat katsojat viime helmikuussa katsomaan kaikki sarjan toisen tuotantokauden 13 jaksoa putkeen.

Sarja ei ole sattumalta hitti. Sen tuottanut streaming-palvelu Netflix analysoi tarkasti yli neljänkymmenen miljoonan käyttäjänsä katselutottumuksia ja käyttäytymistä. Netflix pystyi löytämään kertyneestä big datasta trillerisarjan pyhän kolminaisuuden, joka kolahtaisi varmasti: alkuperäissarja, ohjaaja David Fincher ja pääosan esittäjä Kevin Spacey.

Nettisarjan tekeminen ei suinkaan ole ainoa tapa käyttää big dataa. Valtavilla datamassoilla voidaan tehdä yleishyödyllisempääkin tutkimusta.

Loistava big datan lähde on Googlella vuodessa tehtävät reilut kaksi biljoonaa, eli kaksi miljoonaa miljoonaa nettihakua. Google on ennustanut flunssaan liittyvien hakutermien yleistymisen avulla influenssa-aaltojen liikkumista maailmalla. Tosin ennusteiden tarkkuudessa on ollut toivomisen varaa.

Suomessa Elinkeinoelämän Tutkimuslaitos julkaisi elokuussa tutkimuksen, jossa perinteisiä työttömyysennusteita oli tarkennettu Googlen hakudatalla. Data tarkensi kolmen kuukauden päähän tehtyä ennustetta melkein 40 prosenttia.


Mitä oikein on
big data? Helsingin yliopiston tietojenkäsittelytieteen professori ja tiedonlouhinnan tutkija Hannu Toivonen tietää.

“Kyse on niin suuresta määrästä nopeasti muuttuvaa ja monipuolista dataa, ettei sitä pysty perinteisillä menetelmillä analysoimaan”, Toivonen kertoo. Big dataa ei voi pyörittää Excelillä, vaan sitä varten tarvitaan erityisiä tilastotieteellisiä menetelmiä ja tietotekniikkaa.

Big datalla ei sellaisenaan tee mitään. Tietomassasta pitää löytää hyödyllisiä toistuvuuksia ja kuvioita, joita voi käyttää esimerkiksi tutkimukseen. Tätä kutsutaan englanniksi nimellä data mining, suomeksi vaikkapa tiedonlouhinta.

“Jotkut puhuvat, että tiedonlouhinnassa dataa kidutetaan, kunnes se tunnustaa”, Toivonen sanoo.

“Oikeasti voidaan ajatella, että datalta kysytään, mitä siltä kannattaa kysyä. Annetaan siis tietomassan itse osoittaa, millaisia säännönmukaisuuksia siitä löytyy.”

Big datan hyödyntämisen vauhti vain kiihtyy. Esimerkiksi Google kerää hakutilastojen lisäksi käyttäjistään huikeat määrät muutakin käyttäytymisdataa.

Taskussasi oleva älypuhelin tietää, mitä ohjelmia käytät, missä liikut ja milloin olet hereillä. Tietokoneella eniten käyttämäsi ohjelma, nettiselain, lähettää käyttötietoja Googlelle. Yhtiö lukee sähköpostisi, tuntee kalenterisi ja tietää mitä ohjelmia katsot älytelevisiosta. Tulevaisuudessa Google osaa myös kertoa vaikkapa millaisia tuotteita katsot kaupassa Glass-älylasien läpi tai kenen silmiin tuijottelit luennolla.

Dataa käytetään anonyymisti tuotekehitykseen. Google todennäköisesti tietää, millaisia tuotteita haluamme, ennen kuin tiedämme sitä edes itse.

Big datasta löytyviä säännönmukaisuuksia hyödyntävät mainostajat, mutta niitä on helppo hyödyntää erilaisten sääntöjen valvonnassa ja kehittämisessä.

Luottokorttiyhtiöt analysoivat miljardeilla korteilla tehtyjä ostoksia löytääkseen seasta varastetut kortit. Keskuspankit analysoivat rahoitusmarkkinoita löytääkseen huijaukset. Sähköpostisi roskapostisuodatus kehittyy joka päivä, kun palveluntarjoajat tutkivat miljoonia lähetettyjä ja vastaanotettuja roskaviestejä.


Voisiko big dataa
käyttää myös jokapäiväisessä, ihmisten välisessä sääntelyssä? Voisiko big datan ja tiedonlouhinnan avulla kirjoittaa lakeja tai määrätä jopa sakkoja?

Toivonen ei ole heti vakuuttunut.

“Tiedonlouhinta perustuu siihen, että on olemassa iso aineisto, jota analysoimalla voidaan oppia jotain. Siitä voidaan yleistää havaintoja. Tavanomaiset lait eivät perustu tällaisiin havaintoihin, vaan ne pyrkivät ohjaamaan ihmisten toimintaa.”

Kaliforniasta toimiva kirjailija ja teknologia-aktivisti Tim O’Reilly on kuitenkin puhunut jo vuosia big datan avulla tehtävästä lainsäädännöstä ja sääntelystä. Vuonna 2013 julkaistussa nettikirjassa Beyond Transparency hän kirjoittaa unelmavaltiosta, jossa lait ovat vain kuvauksia erilaisista yhteiskunnan tavoitteista.

Kun kansa ja yhteiskunta muuttuvat, lakien toteutumista varten kirjoitettujen säännösten tulisi päivittyä nopeasti. Avioliittolait tai alkoholilait eivät jämähtäisi viime vuosisadalle, eikä kaupunginvaltuustovääntöä tarvittaisi, kun kansalaisista kerätyn datan perusteella tunnistettaisiin tarvittavat muutokset. Tietojärjestelmä muuttaisi säännöksiä lennosta. O’Reilly kutsuu malliaan algoritmiseksi sääntelyksi, englanniksi algorithmic regulation.

O’Reillyn mallissa valtion tulisi saada haltuunsa helposti valtavat määrät dataa, jonka pohjalta algoritminen sääntely olisi mahdollista.

Ajatus ei ole niin scifi kuin miltä se aluksi kuulostaa. Jo nyt esimerkiksi Italian viranomaiset seuraavat automaattisesti 60 miljoonan italialaisen tulotietoja sekä kulutustietoja löytääkseen mahdolliset veronkiertäjät. Jos kansalainen kuluttaa rahaa vuodessa viidenneksen ilmoittamiaan tuloja enemmän, veroviranomaiset vaativat selvityksen.

Myös Suomessa on puhuttu big datan keräämisestä pääkaupunkiseudun autoista ruuhkamaksuja varten. Kerätyn paikkatiedon avulla tietojärjestelmä voisi reaaliajassa muuttaa keskustaan ajamisen hintaa ja jopa ennaltaehkäistä ruuhkia.


Miksi siis jättää
säännösten kirjoittaminen ja valvonta valmiiksi ylityöllistetyille ihmisille? Miksi vääntää ruuhkamaksujen määristä tai baarien aukioloajoista valtuustoissa? Big datastahan saadaan selville, miten suurin osa ihmisistä oikeasti haluaa elää. Tietokoneiden virittämillä algoritmeilla lakeja ja sääntöjä voidaan muuttaa saman tien.

Jevgeni Morozov tietää, miksi näin ei tehdä. Morozov on valkovenäläislähtöinen kirjailija, yksityisyysaktivisti ja tunnetuimpia big dataan perustuvien järjestelmien kriitikoita.

Morozov varoittaa kansalaisista kerätyn big datan joutumisesta vääriin käsiin tai väärään käyttöön. Ruuhkien ehkäisemiseksi tarkoitettu anonyymi paikkatieto saattaa päätyä laittomasti tai laillisesti vaikkapa tiedusteluviranomaisille. Jos pilvipalveluun ladatut julkkisten alastonkuvatkaan eivät ole turvassa, onko mikään?

Myös professori Hannu Toivonen tunnistaa ongelman.

“Yksityisyydensuojan rikkominen on ilman muuta datan keräämisen isoimpia riskejä.”

Hänen mukaansa datan käytöstä tarvitaan tiukkaa lainsäädäntöä ja yksityisyydensuojasta lisää tietoisuutta.

“Onneksi meillä on Euroopassa vielä yksityisyyttä kunnioittava kulttuuri ja aika hyvä lainsäädäntö. Jossain diktatuurissa tällaista tietomassaa voitaisiin käyttää esimerkiksi hallituksen kriitikoiden mustamaalaamiseen.”

Vielä laajempi ja monimutkaisempi kysymys on tietokoneiden tekemän sääntelyn etiikka. Morozov antaa esimerkin vakuutusyhtiöistä, jotka voisivat tulevaisuudessa kerätä jatkuvasti dataa jokaisesta asiakkaastaan.

Asiakkaan älypuhelimen ja älyrannekkeen keräämä käyttäytymisdata yhdistettynä luottokortin keräämään kulutusdataan määräisi vakuutuksesi hinnan. Jos tupakoit, ajat varomattomasti tai kiipeät humalassa katolle, algoritmi nostaa automaattisesti vakuutuksesi hintaa. Jos et suostu antamaan dataa itsestäsi, maksat maksimihinnan.

Morozov kirjoittaa näkymättömästä piikkilanka-aidasta, jonka tietokoneet ja algoritmit pystyttävät. Poliisin tietokonejärjestelmä voisi tunnistaa ihmisistä kerätyn sijaintitiedon perusteella epäilyttävää liikehdintää kaupungilla ja ohjata poliisipartion estämään pop up -ravintolan tai hiljentämään ulkoilmakeikan.

Aidasta tulee näkymätön, koska big dataan perustuvan sääntelyn myötä ihmiset eivät enää ymmärrä, miksi säännöt muuttuvat ja miksi uusia sääntöjä määrätään. Tietojärjestelmä alkaa vain tunnistaa valtavasta datamassasta toistuvuuksia ja asettaa uusia sääntöjä.

Kun puistossa on tarpeeksi usein iltaisin tapahtunut epätavallista liikehdintää, järjestelmä kieltäisi puistoissa liikkumisen kokonaan. Kaupunkilaiset eivät enää osaisi kyseenalaistaa sääntöjä, sillä big dataan perustuvaan systeemiin luotettaisiin sokeasti.

Toivonen ei lähde maalaamaan uhkakuvia. Hän ei usko, että Suomen kaltaiseen maahan voisi syntyä teknologiadiktatuuria.

“Jos jonkinlainen big dataan perustuva sääntely tulisi käyttöön, siinäkin ihminen säätäisi lakien tavoitteet ja päättäisi moraalista ja etiikasta. Tietokoneiden tekemän sääntelytyön tulisi olla läpinäkyvää ja kansalaisten pitäisi selkeästi nähdä, miten lait ohjaavat kohti ihmisten päättämiä moraalisia päämääriä. Näin varmasti pahimmat uhkakuvat tippuisivat pois.”


Tulevaisuudessa tuskin
täytetään täysin O’Reillyn unelmia tai Morozovin painajaisia. Sääntely ja päätöksenteko voivat hyötyä big datasta ja algoritmeista. Kukaan tuskin vastustaa sujuvampaa liikennettä tai roskapostin suodatusta.

Silti huippusarjoista nauttiessa kannattaa muistaa, kenelle antaa dataansa ja kuka tulevaisuudessa päättääkään sen käytöstä. Jokainen klikki paljastaa sinusta jotain.

KUVITUS ULLA DONNER