WEB 3.0
Jouni Junkkaala, 19.2.2008, 17:58Semanttinen web on jo täällä
Kaikkea ei Googlekaan löydä. Tai vaikka löytäisikin, niin moni relevantti löytö hukkuu tulossivujen paljouteen, koska Google ei ymmärrä asioiden välisiä yhteyksiä. Se näkee ainoastaan irrallisia sanoja ja sivujen välisiä linkkejä.
Webin keksijä Tim Berners-Lee (kuvassa) huomasi ongelman jo ennen
kuin Googlesta tiedettiin mitään: Verkon html-koodatuista dokumenteista
paisuu hallitsematon massa, koska hypertekstin merkkauskielellä kuvataan
vain dokumentin rakenne. Merkityksen määrittelyyn – eli siihen, miten asiat
liittyvät toisiinsa – ei ollut keinoa.
Berners-Leen ratkaisu oli lisätä uusi kerros tyhmän dokumenttikerroksen päälle. Semanttisen kerroksen avulla myös koneet pystyisivät yhdistelemään asioita.
Miten kuvailla koko maailma?
Berners-Lee esitteli ajatuksensa semanttisesta webistä jo 1990-luvun puolessavälissä. Sen jälkeen aihe on ponnahdellut esiin säännöllisesti, ja odotukset uudelta webiltä ovat olleet kovat.
Semantiikan kerrokset
Semanttinen web koostuu olioista, joiden väliset suhteet on määritelty. Olio voi olla esimerkiksi dokumentissa esiintyvä käsite tai kuva. Oliot yksilöidään merkitsemällä ne uri-tunnisteilla (uniform resource identifier). Koska kuvaukset perustuvat sanojen sijasta käsitteisiin, saadaan eroteltua esimerkiksi samalla tavalla kirjoitettavat, mutta erimerkityksiset sanat.
Dokumentin osien merkitsemiseen käytetään xml-metakieltä, joka on oikeastaan joustava kielioppi rakenteisten dokumenttien määrittämiseen. Xml-dokumenttien rakenne ja käytettävät elementit määritetään xml-skeemoilla.
Olioiden väliset suhteet kuvataan xml-kieleen perustuvalla W3C:n standardoimalla rdf-tietomallilla (resource description framework). Rdf tarjoaa vain yleiset säännöt suhteiden kuvaamiseen, suhteiden tarkemmat tyypit kuvataan rdf-skeemoilla. Rdf-skeemoilla luodaan sanastoja, jolla voidaan ilmaista resurssien välisiä suhteita hieman vastaavaan tapaan kuin olio-ohjelmoinnissa.
Yleisen rdf-mallin lisäksi tarvitaan menetelmä jolla esittää tarkempia aihekohtaisia sanastoja. Sanastojen määrittelyyn kehitetty standardoitu owl-kieli (web ontology language) käyttää sekä uri-tunnisteita että rdf:n teknisiä puitteita, mutta tarjoaa lisää tapoja ominaisuuksien ja luokkien kuvailemiseen. Rdf:n ja owl:n ansioista eri alueiden ontologioita ja metatietoja voidaan yhdistellä semanttisella tasolla.
Sparql on standardoitu rdf-muotoisten tietojen kyselykieli. Sen avulla voidaan kehittää sovelluksia, jotka hakevat tietoa verkosta käyttäen yhteistä protokollaa.
Olioiden hyödyntämistä koskeva tietämys ei ole ontologista, vaan toimintaa ja loogista päättelyä olioiden välisistä suhteista ja prosesseista. W3C:n piirissä valmistellaan parhaillaan loogisen tason standardeja, jotka sijoittuvat käsitteellisesti ontologiatason yläpuolelle (kuten päättelysääntöjen merkkauskieli ruleml, rule markup language).
”Ei kukaan ole ehdottanutkaan, että koko maailma pitäisi luokitella”, korjaa tutkija Ora Lassila. Hän on ollut kehittämässä semanttista webiä yhdessä Berners-Leen kanssa ja työskentelee parhaillaan Bostonissa Nokian ja huippuyliopisto MIT:n yhteisessä tutkimuskeskuksessa.
”Olemme tienneet jo vuosikymmeniä, että se on mahdotonta, ei ainoastaan teknisesti, vaan myös sosiaalisesti ja taloudellisesti.”
Mutta semanttinen web on silti todellisuutta jo nyt.
”Semanttiset teknologiat ovat laajassa käytössä, mutta useimmiten ne ovat kulissien takana niin, etteivät ne näy suoraan loppukäyttäjille”, Lassila kertoo.
Semanttinen web on mullistava edistysaskel tietojenkäsittelylle, mutta muutos tapahtuu asteittain. Lassilan tavoitteena on soveltaa semanttisia tekniikoita henkilökohtaisen tiedon hallintaan mobiililaitteissa. Nokia rakentaa semanttisen teknologian päälle puheeseen ja luonnolliseen kieleen liittyviä mobiilikäyttöliittymiä.
Suomi semantisoituu
Semanttisen webin idea on kuvata dokumenttien sisällöt niin, että ne olisivat paremmin koneiden käsiteltävissä. Jotta kone tietäisi tarkoittaako dokumentissa esiintyvä merkkijono ”Kallio” henkilön nimeä, aluetta Helsingissä vai maastonmuotoa, on sanan merkitys upotettava dokumenttiin. Koneelle täytyy myös opettaa käsitteiden välisiä suhteita, jotta se osaa sijoittaa sanan oikeaan asiayhteyteen.
Suhteiden kuvaamiseksi semanttinen web tarvitsee ontologioita. Ne ovat sanastoja, joissa käsitteet on luokiteltu suhteessa toisiinsa.
Ontologioiden laatiminen on työlästä, mutta toisaalta kaikkea ei tarvitse tehdä kerralla.
”Semanttisten tekniikoita voidaan hyödyntää ilman, että tarvitsee rakentaa mitään jättimäistä tekoälyjärjestelmää”, professori Eero Hyvönen Teknillisestä korkeakoulusta huomauttaa.
”Lisäämällä pikkuisenkin semanttisuutta olemassa oleviin sanastoihin ja tekemällä niistä ontologioita voidaan dokumenttien käytettävyyttä parantaa huomattavasti.”
TKK:n ja Helsingin yliopiston yhteistä semanttisen laskennan yksikköä johtava Hyvönen arvelee, että liian kunnianhimoiset suunnitelmat ovat voineet aiheuttaa pettymyksiä semanttiselta webin suhteen.

”W3C:ltä oli suorastaan strateginen virhe standardoida liian monimutkainen ontologiastandardi. Siinä käytetty logiikka menee niin paljon perustietokoneinsinöörin koulutuksen yläpuolelle, että hanke on voinut vaikuttaa liian vaativalta. ’Kun tekoäly ei onnistunut, niin miksi tämäkään onnistuisi?’”
Suomessa on lähdetty liikkeelle sovelluslähtöisesti ja lähestymistapa vaikuttaa onnistuneelta. Hyvösen vetämässä Finn-Onto-hankeessa on luotu muun muassa suomalainen kantaontologia Yso, vapaasti käytettävä ontologiapalvelin ja muita työkaluja ontologioiden hyödyntämiseksi sekä useita semanttisuutta hyödyntäviä verkkopalveluita.
”Meillä on nyt kova draivi päällä”, Hyvönen hehkuttaa.
”Rahoittajia oli aluksi 14 ja lopussa Tekes-hankkeelle ennätykselliset 37.”
Juuri päättyneen hankkeen seuraaja Semanttinen web 2.0 on edeltäjäänsäkin laajempi ja se jatkaa sovelluspainotteista lähestymistapaa. Tarkoituksena on yhdistää web 2.0 -teknologiaa ja palveluita semanttisiin teknologioihin.
Tee tiedosta käyttökelpoista
Jokainen, joka on joutunut miettimään tekstilleen asiasanoja, tietää minkälaista pakkopullaa metadatan tuottaminen eli annotointi voi olla. Siitä tulee helposti koko semanttisen webin suurin pullonkaula.

Eero Hyvönen
Semanttisuuden lisäämisellä voidaan parantaa ennen kaikkea materiaalin haettavuutta ja liitettävyyttä. Esimerkiksi yrityksen tuottamista dokumenteista on paljon helpompi löytää tietoa, jos aineisto on annotoitu systemaattisesti eikä satunnaisin asiasanoin. Semanttisten suhteiden kuvailemiseen luodun rdf-standardin mukaisten aineistojen yhdisteleminen on dramaattisesti helpompaa kuin pelkästään xml-koodatun materiaalin (muista muodoista puhumattakaan).
Varsinkin julkishallinnossa tuotetaan paljon päällekkäistä aineistoa, joten tarpeettoman tuplatyön poistamisella voi säästää paljon. Lisäksi konetulkittavien aineistojen yhdisteleminen voi tuoda esiin muuten piiloon jäävää tietoa.
Hyvönen kertoo, että erään semanttisesti esitetyn potilastiedon päälle toteutetun älykkään palvelun on huomattu jopa pienentävän potilaiden kuolleisuutta järjestelmää käyttäneissä sairaaloissa.
”Jos sisältö joka tapauksessa asiasanoitetaan, ei ole mitään syytä olla systematisoimatta toimintaa. Samalla tai jopa pienemmällä vaivalla saadaan materiaalia, joka on välittömästi koneen käytettävässä muodossa”, Hyvönen muistuttaa.
Anna koneen auttaa
Ontologioiden hyödyntämiseen ja dokumentin annotointiin on olemassa useita sovelluksia. Annotointi voidaan esimerkiksi tehdä puoliautomaattisesti niin, että käyttäjä valitsee sovelluksen ehdottamista asiasanoista sopivat. Jos tuloksen tarkkuudella ei ole suurta väliä tai käsityötä ei ole mahdollista tehdä ollenkaan, voi annotoinnin toteuttaa täysin automaattisesti.
Mediatalojen verkkouutisista löytyy esimerkkejä viimeksi mainitusta: Sovellus analysoi ja annotoi uutisen ja liittää siihen linkkejä samanlaisiin aiheisiin liittyviin juttuihin. Puoliautomaattista analysointia tarjoaa esimerkiksi ohjelmistotalo Sininen Meteoriitti, joka yhdistänyt ontologiapohjaisen asiasanoituksen Microsoft Wordiin. Sisällön analysointi perustuu kieliteknologiaan erikoistuneen Connexorin jäsentimeen.
Meteoriitin toimitusjohtaja Aki Antman korostaa, että vaikka annotointi viekin resursseja, vielä kalliimmaksi voi tulla se, ettei tiedontarvitsija löydä tärkeää tietoa ja tuottaa sitten uudestaan olemassa olevaa sisältöä. ”Organisaation sisälle voi syntyä useita eri totuuksia samasta asiasta, mikä hankaloittaa entisestään relevantin tiedon löytymistä.”
Aineistojen semantisointi nostaa sen analysoitavuuden uudelle tasolle. Esimerkiksi KulttuuriSampo-projekti tuottaa julkaisukanavan, joka yhdistää muun muassa esineitä, toimijoita ja tarinoita älykkäästi. Semanttisten tekniikoiden ansiosta hyvin erityyppiset käsitteet yhdistyvät mielekkäästi ja niitä voidaan selailla, etsiä ja analysoida asiayhteyksien perusteella.
Semanttiset hakukoneet voivat auttaa hakusanan yksilöimisessä – esimerkiksi kysymällä tarkoittaako ”Nokia” yritystä vai kaupunkia –?ja tarjoamalla muita aiheeseen liittyviä hakusanoja. Myös tulokset ovat mielekkäämpiä, kun kone ymmärtää synonyymit, kielen rakenteen, asioiden ominaisuudet ja niiden väliset yhteydet
Sellainen hakukone on parempi kuin Google. Ei tarvita muuta kuin lisää semanttista aineistoa.

Semanttinen web rakentuu alhaalta ylöspäin, eli semanttisia tekniikoita voi hyödyntää, vaikkeivät kaikki kerrokset ole valmiita. Varsinaisen semanttisuuden voi sanoa alkavan rdf-tasolta. Kuvan jaottelu on muokattu W3C:n uusimmasta määritelmästä. Vaaleiden kerrosten standardit eivät ole vielä vakiintuneet.
Välineitä ja sovelluksia
FinnOnto-projektissa luotiin semanttisen webin ontologioita, työvälineitä ja sovelluksia.
Ontologiat:
- yleinen suomalainen ontologia Yso
- yleisen suomalaisen asiasanaston pohjalta laadittu kantaontologia.
- lisäksi muun muassa toimijaontologia Toimo, paikkaontologia Suo, ajallinen paikkaontologia Sapo ja historiaontologia Histo.
Palvelut:
- ontologiapalvelin Onki
- paikkatiedon ontologiapalvelu Onki-paikka
Välineet:
- selainpohjainen annotointiväline Saha
- näkymäperustainen hakukone Ontogator
- semanttinen suosittelupalvelu Ontodella
Sovellukset:
- MuseoSuomi-, KulttuuriSampo-, Opintie- ja TerveSuomi-portaalit
Semanttisia tekniikoita hyödyntävät esimerkiksi
- Adobe (dokumenttien automaattisesti muodostettu metadata)
- uutistoimisto AFP (suomalaisen Profiumin toimittama dokumenttien toimitus- ja jakelujärjestelmä)
- Nokia (Forum Nokia)
- Semantic web 2.0 -hankkeessa mukana mm Wärtsilä ja Rautaruukki. Kehityskohteena tietämyksenhallintaan liittyvät, yhteisölliset älykkäät palvelut.
Tämän jutun alapuolella olevat Aiemmin verkkopalvelussa -linkit hyödyntyvät semanttisen webin tekniikoita. Järjestelmä tunnistaa tekstistä sanoja ja vertaa niitä laajan ontologian avulla muihin verkkopalvelussa oleviin juttuihin. Kuten joidenkin juttujen linkeistä voi huomata, automaattinen semantisointi tuottaa toisinaan hauskojakin yhdistelmiä. Automaattinen annotointi on kuitenkin hyvin kustannustehokas tapa lisätä tekstin semanttisuutta.

