AVOIN DATA
Jouni Junkkaala, 4.3.2010, 18:55Avoin juttu
Tämä juttu on kirjoitettu alusta (melkein) loppuun yhteisöllisesti verkossa.
Internetin kehitys on nyt sekä teknisesti että käyttötapojen osalta sellaisessa vaiheessa, että datan avaaminen on kannattavampaa kuin koskaan ennen.
Mitä tarkoittaa AVOIN DATA?
Erityisesti julkishallinnon, mutta myös yritysten ja muiden organisaatioiden tietojärjestelmiin sekä yksityishenkilöille kertynyttä jalostamatonta informaatiota, johon on avattu maksuton pääsy organisaation ulkopuolisille.
Datan avoimuuden asteeseen vaikuttavat ennen kaikkea tekninen saavutettavuus (eli datan koneluettavuus), maksuttomuus, datan käyttöoikeudet (lisensiointi), sekä datan löydettävyys.
Julkisten organisaatioiden tietokannoissa lojuu valtavat määrät hyödyntämätöntä tietoa. Sitä ei yleensä pääse käyttämään edes naapurivirastosta saati hallinnon ulkopuolelta. Ja jos pääseekin, niin käytöstä pitää maksaa tai se on kohtuuttoman hankalaa.
Julkishallinnon datavarannon hyödyntämistä ohjaava maksuperustelaki lisää byrokratiaa, vähentää datan hyödyntämistä ja synnyttää jopa päällekkäisiä tietovarastoja, kun tehostamispaineet ohjaavat säästämään lyhytnäköisesti. Ehkä suurin syy suljettuihin tietovarastoihin on kuitenkin oman organisaation tulosohjaus ja asenne.
Hallinnon data on nykyaikaisen yhteiskunnan luonnonvara, joka voi paitsi lisätä hallinnon tehokkuutta ja kansalaisten osallistumismahdollisuuksia myös luoda uutta liiketoimintaa.
Avoin data luo hedelmällisen ekosysteemin
Suomen Akatemian rahoittama Somus-tutkimushanke järjesti viime syksynä Kansalaisosallistujan työkalut -kilpailun hallinnon avoimen datan ja sovellusten saamiseksi esiin. Kilpailuun tuli 23 hyvää ehdotusta, niin ideoita, pilotteja kuin valmiita sovelluksiakin.
Kilpailu osoitti koodaajille, että joku on kiinnostunut heidän sovelluksistaan. Hallinnon edustajat taas saivat avartavia ideoita datansa hyödyntämiseksi. Ennen kaikkea konseptoijat, koodaajat ja hallinnon edustajat pääsivät käynnistämään keskinäisen keskustelun siitä, miten julkisen datan avoimuutta voitaisiin edistää.
Miten tämä juttu tehtiin?
Vastaanvanlaisia mashup-kilpailuja järjestetään ympäri maailmaa. Useimpien tavoitteena on luoda avoimen datan ekosysteemi. Siinä datan jakaja ja hyödyntäjä eivät ole välttämättä vastavuoroisesti yhteistyössä, vaan kokonaisuus hyödyttää kaikkia. Kuka tahansa voi noukkia mitä tahansa ideoita ja aineistoja ja yrittää tehdä paremmin.
Myös netin ripeä kehitys perustuu pitkälti ekosysteemiajatteluun. Nykymuotoinen netti ei olisi mahdollinen ilman avoimia, yhdenmukaisia rajapintoja sekä ideoiden ja konseptien lainailua.
Datan lähteillä
Yhdysvaltain liittovaltio avasi toukokuussa 2009 data.gov-palvelun, jonne on koottu tiedot hallinnon tarjoamasta datasta ja sen käyttämisestä. Samanlaisia datakatalogeja on perustettu joka puolella maailmaa. Reilu kuukausi sitten Britanniassa julkistettu data.gov.uk on amerikkalaisvastinettaan laajempi, monipuolisempi ja paremmin koneluettava linked data -tukensa takia.
Suomen kansallinen datakatalogi on toistaiseksi vain lyhyt linkkilista (suomi.fi/datakatalogi), mutta valtion it-palvelukeskuksen ylläpitämä Suomi.fi-portaali kehittää siitä kehittyneempää versiota. Valtion katalogin lisäksi Somus-hanke ja Kirjastot.fi-palvelu kehittävät yhteisöllistä pääasiassa ohjelmoijille ja palveluideoijille suunnattua sivustoa (opengov.fi).
- Hallinto
Esimerkki: Ympäristöhallinnon Oiva-palvelu tarjoaa tietoa vesivaroista, eliölajeista ja alueiden käytöstä sekä ympäristöön liittyviä paikkatietoaineistoja. Hallinnossa meneillään olevat avaamishankkeet tulevat moninkertaistamaan tarjolla olevan datan lähivuosina.
- Yritykset
Esimerkki: Google tarjoaa muun muassa karttadataa avoimen rajapinnan kautta.
- Kansalaiset
Esimerkki: OpenStreetMap on vapaaehtoisvoimin ylläpidetty karttapalvelu, jota kuka tahansa voi päivittää esimerkiksi navigaattorinsa avulla keräämällä tiedolla.
”Pidän ehkä merkittävimpänä verkon tuomana muutoksena sitä, että tiedon tuottaminen, korjaaminen ja täydentäminen on tullut yksittäisten kansalaisten hyppysiin. Tässä ollaan kuitenkin vasta ihan alkumetreillä.” – Jyri Engeström
Miten (hallinnon) data saadaan auki?
1. Politiikka = Luotava yhteinen tahtotila tuoda julkiset tietovarannot kaikkien käyttöön, varmistettava päättäjien tuki.
Valtion it-johtaja Yrjö Benson: Nyt hallinnon data aukeaa!
2. Juridiikka = Sovittava datan käytön pelisäännöt, minkälaisilla ehdoilla dataa voi käyttää ja levittää.
3. Tekniikka = Julkaistava tiedot datavarannon sisällöstä, muodosta ja rajapinnoista, avattava verkkopalvelu datan jakamiseksi
4. Byrokratia = Sovittava toimintamallit ja kehitettävä jakamismyönteistä asennetta.
Muodolla on väliä
Datan hyödynnettävyyteen vaikuttaa suuresti se, minkälaisessa muodossa data on ja minkälaisten rajapintojen kautta pääsee käyttämään. Mitä yleisempiä standardeja datan muoto ja sen rajapinnat noudattavat, sitä helpompaa datan hyödyntäminen on.
Datan käytettävyyttä voidaan parantaa myös kuvaamalla datan merkityksiä semanttisen webin tekniikoin. Suomessakin rakennetaan kansallisen semanttisen webin infrastruktuuria FinnONTO-hankkeessa.
Linkkejä
- Wikipedia: Semantic Web
- Wikipedia: Linked Data
- Tim Berners-Leen innostava esitys linked datasta
- Linking Open Data -projekti
- Creating Linked Data
- Can we learn anything from failure of many B2B Exchanges?
- Rethinking Open Data

Datan löytämisen helpottamiseksi tieto siitä pitää julkaista. Datavarantoja esitteleviä koontipalveluita kutsutaan yleensä datakatalogeiksi.
Standardit myöhemmin
Jos data ei ole valmiiksi standardimuotoista, voi sopivien rajapintojen etsiminen, määrittely ja toteutus osoittautua aikaa vieväksi ja kalliiksi.
Kannattaakin pohtia, voisiko datan julkaista sellaisenaan ja kertoa siitä sopiville tahoille. Jos data on jollekin tärkeää, se otetaan käyttöön tavalla tai toisella.
Tarvittavia rajapintoja voi toteuttaa saadun palautteen perusteella. Pohtimalla datan julkaisutapaa yhdessä tarvitsijoiden kanssa voidaan vähentää turhaa työtä.
Bisnestä datanvälittäjälle?
Rajapintapalveluiden kaupallinen järjestäminen voi myös muodostua suhteettoman kalliiksi.
Verkkorajapintapalveluihin voisikin syntyä uutta liiketoimintaa, jos joku taho päättäisi toimia avoimen datan välittäjänä. Se helpottaisi sekä datan julkaisua että käyttöä.
Datan omistajan ei tarvitsisi investoida netin reunalle tulevaan palvelininfraan ja kaistaan sekä niiden varmistamiseen ja turvallisena pitämiseen. Omistaja voisi rekisteröidä oman datalähteensä ”datavälityskeskukseen”, joka sitten tarjoaisi sen kaikilla mahdollisilla palvelukutsumuodoilla eteenpäin.
Välityskeskukseen voisi joko viedä dataa tai kertoa rajapinnan, jolla keskus saa haettua raakadatan itselleen. Näin datan käyttökin helpottuisi, kun kutsumuodot olisi aina samanlaisia.
Aiemmin verkkopalvelussa
Kertokaa nyt minullekin mitä järkeä tässä on?
Lukekaa varsinkin tämä: Miksi tässä ollaan?
http://www.tietoviikko.fi/keskustelu/?threadId=10283
Tämä kaikki nyt pitäisi luovuttaa ilmaiseksi yrityksille jotka ovat jo saaneet siitä maksun ja laskuttavat jatkuvasti ja sen jälkeen kaikki luovutetaan ilmaiseksi.
Voiko mitään hölmömpää enää keksiä?
Ensin julkisten organisaatioiden tietokannoissa oleva data vapauttaa panttivankeudesta ja vasta sen jälkeen voidaan pohtia miten sitä jaetaan ja millä hinnalla.
Tässä avoimmuus on käännetty päälaelleen. Julkisten organisaatioiden maksama pitää jakaa ilmaiseksi yrityksille vapaasti hyödynnettäväksi. Organisaatiot kuitenkin ovat maksaneet noista järjestelmistä ja maksavat kokoajan.
Tämä 'Avoimen jutun' laatikossa oleva Mitä tarkoittaa AVOIN DATA? laatikon löpinä on aivan täyttä soopaa. Tuossa datassa ei ole mitään avointa eikä sitä mitenkään voi sanoa maksuttomaksi tai lisenssivapaaksi. Oracle keksii takuuvarmasti aivan välittömasti laskutusperusteen heti kun tuota dataa aletaan jakamaan vapaasti.
Rajapinnat ovat yritysten tarkasti varjelemia salaisuuksia. Kun ei edes saman firman potilastietojärjestelmästä voi siitää dataa toisen kunnan järjestelmään. Kun tehdään kuntaliitos ei siinä mitään tietoja yhdistetä vaan jatketaan isomman osapuolen tietokannan käyttämistä ja pienemmän kunnan asukkaiden osalta aloitetaan 'tyhjästä'. Onneksi sentään jollakin tavalla historiaa päästään katselemaan.
Jos avoimesta aletaan tuota tietoa jakamaan miksi julkisorganisaation pitää sitten maksaa tuon datan säilytyksestä ja ylläpidosta? Tehkööt sitten yritykset ilmaiseksi myös kun ilmaiseksi saavat hyödynkin.
USA:n näkökulma on ihan oikea: jos datan keräys on kerran verovaroilla maksettu pitää se olla ilmaiseksi kaikkien saatavilla ja hyödynnettävissä.
Julkishallinnon suomalaistyylisessä kaksoisrahastuksessa ei ole mitään järkeä.
Vertaan avointa dataa ja tietoa jätteiden hyödyntämiseen. On paljon sellaista tietoa, joka käyttäjän omassa varastossa kompostoituu hyödyttömäksi, mutta joku toinen pystyy murskaamaan siitä esille uutta ja hyödyllistä ehkä hyvää bisnestäkin.
Kaikilla yrityksillä on sellaista tietoa, jonka jalostaminen omissa nurkissa ei onnistu osaamisen puutteen tai bisneksen rajallisuuden takia, mutta joku toinen saa keräilykombolla aikaan ihmeitä.
- tieto ei kulu vaikka sitä jaetaan
- arvoton muuttuu arvokkaaksi toisen käsissä
- avoimuuden rajat syntyvät sopimalla
Yhteisillä julkisilla varoilla kerätty pitää todellakin saada kansalaisten ilmaiseen käyttöön - eikä ainakaan missään nimessä niin, että siihen väliin tulevat rahastusyritykset perimään sen käytöstä kansalaisilta jotain maksua. Se on ehdottomasti estettävä. Jos yritykset haluavat tuota dataa käyttöönsä niin, että ne voivat sillä ansaita, kansalaisilta, on noilta yrityksiltä ehdottomasti perittävä siitä maksu. Muutenhan ne saavat verovaroilla kaikkien maksaman tuotannontekijän käyttöönsä, vain rahastaakseen sillä.
Tuo puoli noissa yritysten vaatimuksissa aina tuppaa unohtumaan - halutaan vaan ilmaiseksi käyttöön rahastusta varten. Kaksoisrahastukseen ei kansalaisten pidä suostua.
Aihe herättää mukavasti keskustelua.
Kirjoitin tuossa ensimmäisessä kommentissani: "Ensin julkisten organisaatioiden tietokannoissa oleva data vapauttaa panttivankeudesta ja vasta sen jälkeen voidaan pohtia miten sitä jaetaan ja millä hinnalla."
Näyttää jääneen pitää sana pois. Tarkoituksen i oli kirjoittaa '...data pitää vapauttaa...'
Samoin kirjoitin: "Oracle keksii takuuvarmasti aivan välittömasti laskutusperusteen heti kun tuota dataa aletaan jakamaan vapaasti."
Näin käy varsinkin 'jos rajapinta on koneluettava' kuten tuolla - Kaljakoppa vetoa: Hallinnon data aukeaa nyt - jutussa esimerkiksi tulee esiin.
Data on tietoa joka on tietojärjestelmissä. Kaikissa järjestelmissä se data ei ole tietokannassa. Data on ainakin tietokannassa säilytettävää tietoa ja tänä päivänä sen pitäisi nimenomaan olla tietokannoissa jotta se voisi olla mahdollisimman helposti siirrettävissä. Tietojen siirrettävyys perustuu rajapintoihin ja jos ne eivät ole standardoituja ei onnistu.
Käyttäjän kannalta tietokoneohjelma ei ole dataa eli tietoa. Tietokoneohjelman tekijälle se ohjelmakin on jo dataa. Varsinkin sen dokumentaatio. Teos ei ole dataa käyttäjälle. Tekijälle se on.
Avoimmuus tarkoittaa sitä että on avoimet ja standardit rajapinnat joiden avulla data eli tieto saadaan luettua ja tallennettua.
Esimerkkinä http://www.skolelinux.org/~conrad/snofrix/html/fi/standards.html
"Milloin ei ole kyse avoimesta standardista
Kuvittele, että lähetän sinulle dokumentin, jota et pysty lukemaan, ja että sen jälkeen ehdotan, että sinun pitäisi ostaa jokin erityinen ohjelma "purkaaksesi" lähettämäni viestin! Vaikka suostuisitkin tekemään niin, olisit luultavasti vihainen. Tällainen käytäntö tekee kommunikoinnin ja yhteistoiminnan vaikeammaksi. Mutta sitä tapahtuu joka päivä! Joka päivä ihmiset ostavat erikoisjärjestelmiä lukeakseen omia tiedostojaan. Toisin kuin saamasi sähköpostiviestit, ovat Word-dokumentit (siis .doc-muotoiset tiedostot) oikeastaan salattuja tiedostoja, jotka pitää "purkaa" auki ennen kuin ne voi lukea! Ei ole olemassa kansainvälistä sopimusta Office-tiedostoista, kuten on sähköpostin muodosta.
Jos aioit kysyä, paljonko hallitukset ja yhtiöt ovat sijoittaneet rahaa opettaakseen ihmisiä kirjoittamaan salattuja tiedostoja, ja verrata sitä siihen, paljonko rahaa on kulutettu avoimien standardien edistämiseen - esimerkiksi tukemalla avointa tiedostomuotoa (.sxw), jota OpenOffice.org käyttää, tai tukemalla OpenOffice.org-ohjelman ohjelmoijia - olisi tulos sekä shokeeraava, että hävettävä. Silti suurinta osaa ihmisistä riivaa suurempi "tarve" lukea "salattuja" .doc-muotoisia tiedostoja kuin tukea avoimia standardeja."
Onneksi tilanne on ainakin jossain määrin parantunut tässä.
Olen ilman muuta avoimmuuden kannalla. Sillä on muun muassa työllisyyttä lisäävä vaikutus. Jos käytetään 100 000 rahaa kahdella eri tavalla. Tapa yksi ostetaan lisenssi 40 000 ja maksetaan ylläpidosta 10 000 palkkoihin jää 50 000. Tapa kaksi käytetään koko 100 000 palkkoihin.
Panttivankitilannetta pitäisi lähteä purkamaan nyt kun halutaan lisää sähköisiä palveluita kansalaisille. Avoimmuuteen perustuvaa tietoa voidaan ilman muuta jakaa vapaasti ja siihen on kehitetty jo lisensointi.

