TALLENNUS
Juho Pentikäinen, 17.8.2009, 7:48Deduplikointi lääkitsee dataturvotusta
Deduplikointi on ajatuksena sen verran nerokas, että siitä ovat nyt
kiinnostuneita kaikki.
Kyse on toistuvan tiedon eliminoinnista. Järjestelmä vertaa erikokoisia datapalasia ja tallentaa samanlaiset datablokit vain kerran, mikä säästää levytilaa.
Tallennusjätit ovat huomanneet deduplikoinnin mahdollisuudet ja taistelevat nyt markkinoista verissäpäin. Tallennusjätti EMC sai ostaa suhteellisen rauhassa Avamarin vuonna 2006 noin 165 miljoonalla dollarilla. Myös IBM osti ilman suurta kilpailua Diligent Protectierin vuonna 2008.
Sen sijaan Data Domain -nimisestä deduplikoijasta on käyty NetAppin ja EMC:n välillä kova kilpahuuto. Välillä Data Domainin hallitus ehti jo hyväksyä NetAppin 1,9 miljardin taalan tarjouksen, mutta EMC päättikin vielä nokittaa 2,1 miljardin dollarin käteistarjouksella.
Menetelmät
Deduplikointi tunnistaa päällekkäisyydet – todennäköisesti
Deduplikointia voidaan tehdä kolmella eri tasolla. Hienostuneemmilla menetelmillä pakkaussuhde on parempi, mutta samalla tarvitaan lisää prosessointitehoa.
Karkeimmalla tasolla deduplikoidaan kokonaisia tiedostoja. Eli jos deduplikoidulla tallennusvärkillä kaikilla käyttäjillä on sama Powerpoint-kalvo kotihakemistossa, niin se tallennetaan vain kerran. Mutta jos käyttäjä tekee kalvoon pienenkin muutoksen, koko tiedosto tallennetaan uutena kappaleena.
Hienostuneemmalla tasolla Powerpoint tallennetaan vakiopituisiin tietolohkoihin eli blokkeihin. Kun kalvoesitykseen lisätään keskelle yksi kirjain, niin siitä eteenpäin kaikki blokit muuttuvat ja ne täytyy tallentaa uudelleen. Sen sijaan alkupään blokit pysyvät samana.
Kaikkein pisimmälle menevät algoritmit tarkkailevat muuttuvan pituisia blokkeja tai bittijonoja. Tällöin kalvosarjaan keskelle tehty pieni muutos tallentuu erikseen muiden osien pysyessä vanhallaan.
Tunnistaminen sormenjäljellä
Datapalasten vertailemisen sijaan järjestelmät tutkivat niistä tehtyjä puristeita tai sormenjälkiä. Yleisimmin käytössä on hash-tunniste, mutta joillain valmistajilla on myös omia algoritmeja.
Hashin ongelmana on se, että kaksi erilaista tietopalasta voi tuottaa saman sormenjäljen. Tällöin deduplikoitu data menee rikki.
Todennäköisyys tällaiselle tapahtumalle riippuu vertailtavan blokin ja käytetyn sormenjäljen pituuden suhteesta. Valmistajien mukaan todennäköisyys on kuitenkin niin pieni, että koko järjestelmän pettäminen jollain muulla tavalla on todennäköisempää.
Kovien tarjousten takana on kovia odotuksia. EMC:n pääjohtaja Joe Tucci odottaa deduplikointimarkkinoiden kasvavan miljardin dollarin suuruisiksi jo tänä vuonna.
Yritysostoilla on jänniä vaikutuksia alan yrityksiin, sillä useat toimijat käyttävät samoja tekniikoita. Esimerkiksi IBM:n ostamaa Diligent Protectieriä käyttää sen kilpailija Hitachi Data Systems. Yritysoston kieppeillä HDS:n ja Diligentin yhteistyön jatkuvuutta epäiltiin.
Hieman erilaisessa kuviossa Dell käyttää yhteensä kolmea eri deduplikointivalmistajaa eri tuotteissaan. Yksi vaihtoehdoista on EMC:n toimittama tallennusjärjestelmä, joka käyttää Quantumin deduplikointia.
Channel Register -lehti arvelee Quantumin jäävän tulevaisuudessa soittelemaan lehteä, kun EMC korvaa sen tuotteet hiljan ostamallaan Data Domainilla.
Sekavaa, mutta pakka onkin vasta selkiytymässä
Ensimmäiseksi varmistusjärjestelmiin
Deduplikointi on tullut ensimmäiseksi varmistusjärjestelmiin. Se hidastaa järjestelmää vähän, eikä varmistuspäässä ole niin kiire. Toisaalta varmistuksessa tallennetaan pääasiassa samaa tietoa useaan kertaan ja deduplikoimalla se puristuu kasaan kuin kuivattu kurkku.
”Seuraava paikka on nas-palvelimet, jotka tallentavat tiedostoja. Lopullinen graalin malja on aktiivijärjestelmissä, joissa tarkistetaan ainakin jollain tasolla samankaltaisuuksia”, arvioi Hitachi Data Systemsin ratkaisukonsultti Jukka Laaksonen.
Laaksonen ennustaakin, että samalla kun deduplikointi nousee aktiivijärjestelmiin, niin se samalla painuu osaksi tallennusrautaa ja ohjainkortteja.
”Tämä on näitä teollisuustrendejä.”
Levyvarmistuksen mahdollistaja
Varmistuksessa deduplikointi liittyy läheisesti levyjärjestelmiin ja niiden päälle rakennettuihin virtuaalisiin nauhakirjastoihin. Arvokkaasta järjestelmästä saadaan kannattavampi ostos kun hyötysuhde paranee.
”Meidän tekniikallamme on jopa halvempaa ostaa levypohjainen järjestelmä kuin pieni nauhakirjasto”, selvittää HP:n tuotemarkkinointipäällikkö Ari Saareks.
Ajatuksena on tallentaa perinteisten nauhalle tehtävien täysvarmistusten sijaan yksi kopio levylle ja alkuperäiseen tehdyt pienet muutokset. Deduplikoinnilla sama tieto tallennetaan vain kerran ja data puristuu alkuperäistä pienemmäksi.
”Meillä yksi asiakas halusi varmistaa kaksi tiedostopalvelinta, joissa oli yhteensä kahdeksan teratavua tietoa. Tarjosimme heille varmistusta, jonka nettokapasiteetti on 7,75 teratavua”, toteaa Saareks.
”Tietenkin he kysyivät miksi te tällaisen haluatte myydä, kun pitäisi varmistaa kahdeksan teratavun asemat. Nyt sinne on ajettu puolentoista kuukauden ajan täysi varmistus joka päivä ja tilaa on mennyt yhteensä 5,6 teratavua”, naureskelee Saareks.
Referenssi-asiakkaita on hankala löytää
Suomalaistoimittajista suurin osa kertoo asiakkaiden kiinnostuneen deduplikoinnista ja varsinkin viimeisen vuoden aikana sitä on kyselty aktiivisesti.
Referenssiasiakkaiden löytäminen oli kuitenkin vielä hankalaa osaltaan kesälomista johtuen. Tähän juttuun sellainen löytyi IBM:ltä ja EMC:ltä.
Suomalainen palvelutalo EmCe Datacenter Services otti käyttöön varmistuspuolella EMC:n toimittaman Avamar-järjestelmän, joka tekee deduplikoinnin jo lähettävässä päässä varmistettavalla palvelimella.
Samaan pystyy myös Symantecin Puredisk, mutta EmCen valinnan sinetöi olemassa oleva suhde EMC:n kanssa.
Järjestelmässä samaa dataa ei tarvitse siirtää useita kertoja.
”Nyt varmistus kestää noin 5–10 minuutin paikkeilla per palvelin. Aiemmin se kesti tunteja. Ylipäätään nyt olemme voineet tarjota uutta palvelua asiakkaille, jotka haluavat varmistaa omassa konesalissaan olevia palvelimia”, kertoo EmCen toimitusjohtaja Janne Saarimäki.
”Meille tulee joka yö varmistuspalvelimelle vain noin 0,01 prosenttia uutta dataa. Jos käyttöön otetaan uusi virtualisoitu Windows-palvelin, niin silloin tiedosta joudutaan siirtämään vain noin parikymmentä prosenttia”, Saarimäki selvittää etuja.
Deduplikoinnin edut korostuvatkin virtuaalipalvelimissa, joiden käyttöjärjestelmistä suurin osa on samaa.
Tähän tulokseen on päätynyt myös IBM:n NAS-palvelimia käyttävä A-katsastus.
Tiedotteen mukaan A-katsastus laskee säästävänsä deduplikoinnilla levytilaa käyttäjien kotihakemistoissa noin 38 prosenttia ja virtuaalipalvelinympäristöissä 63 prosenttia.
Deduplikoivissa varmistusjärjestelmissä tosin ”täysi varmistus” -ilmaus on hieman epätarkka. Täysi kopio kun otetaan vain alkuvaiheessa ja sen jälkeen päivitetään alkuperäistä kuvaa.
Laskennallista kikkailua pakkauksella
Edellisessä esimerkissä deduplikoinnin pakkaussuhteeksi tulee noin 1:13, eli alkuperäinen varmistettu data on puristunut alle kolmastoistaosaan siitä, mitä se olisi ollut perinteiselle nauha-asemalle useisiin täysivarmistuksiin levitettynä.
Osassa markkinointimateriaaleja puhutaan jopa 1:300-puristussuhteista. Kaikki haastatellut järjestelmätoimittajat kehottavat varovaisuuteen suurien lupausten suhteen. EMC:n teknologiajohtaja Jussi Lehtinen laskeskelee suurien suhteiden olevan lähinnä laskennallista kikkailua.
”Jos otan sata megatavua tavaraa ja siitä tuhat varmistusta, niin varmistussuhteeksi tulee 1:1 000 millä tahansa tekniikalla.”
”Yleisin kysymys on, että paljonko säästän levyä ja vastaus on ikävä: Se vaihtelee. Sadan ihmisen kotihakemisto täynnä samoja powerpointteja deduplikoituu kaiken järjen mukaan hyvin. Sata gigatavua valvontakamerakuvaa taas ei deduplikoidu”, muistuttaa Lehtinen.
Poikkeuksellisessa tapauksessa hyötysuhde voi olla jopa luokkaa 1:30, mutta realistinen hyötysuhde varmistusjärjestelmissä on väliltä 1:5 ja 1:20.
Todellinen ero deduplikoivan ja deduplikoimattoman järjestelmän välillä on usein vielä pienempi.
Osa varmistusjärjestelmistä pakkaa datan joka tapauksessa 70-luvulta peräisin olevalla lz-algoritmilla. Lz-algoritmia käyttävät deduplikointijärjestelmät laskevat myös lz:n hyötysuhteeseen mukaan.
Aktiivijärjestelmissä deduplikoinnin hyötysuhde on varmistusjärjestelmiä pienempi. Esimerkiksi IBM:n ja HP:n edustajat lupailevat noin 1:2-pakkaussuhteita omille deduplikoiville nas-laitteilleen.
Liian hyvää?
Tähän mennessä deduplikointi kuulostaa varsin lupaavalta. Järjestelmillä on kuitenkin hintansa ja hankintaa tehdessä pitää miettiä kokonaisuutta.
”Minun raadollinen näkemykseni on, että jokainen ottaa lisenssimaksua niin paljon kuin pystyy. Tämähän on aito ja ekologinen säästömahdollisuus, mutta lisenssimaksut estävät järkevän ratkaisun tekemisen”, manailee Laaksonen HDS:ltä.
Jos varmistuksessa ei ole useita sukupolvia, Laaksonen arvioi pakkaussuhteiden jäävän noin 1:4 tienoille, eikä hyöty tällöin riitä maksamaan lisenssihintoja.
Muut järjestelmätoimittajat ovat kuitenkin eri mieltä ja pitävät deduplikoivien järjestelmien hintoja kohtuullisina. Kokonaisuutta arvioidessa hyödyt voivat tulla muualta kuin helposti laskettavissa ostohinnoissa.
Lehtinen EMC:ltä arvioi hyötyjen tulevan esille esimerkiksi varmistuksen palautusvaiheessa.
”Yksikään palvelin ei puske dataa ulos 80 megaa sekunnissa minkä nauha-asema pystyy kirjoittamaan. Mutta kun dataa laitetaan nauhalle limittäin ja tulee palautusvaihe, niin se kestää sitten kymmenen tuntia. Levyjärjestelmässä palautus vie kaksi tuntia. Ja mitä maksaa kun tuotanto on alhaalla kahdeksan tuntia?”
NetApp on myös yksi suurista tallennusjärjestelmätarjoajista Suomessa, mutta yhtiön edustajaa ei tavoitettu jutun kirjoitusaikaan.
KOULUTUS
Tiina Siltala, 28.8.2010 15:15It-johtaminen on Suomessa lapsenkengissä
Tietohallintojohtamisen koulutus vahvistuu Suomessa tänä syksynä. »
KOULUTUS
Virpi Tynkkynen, 29.8.2010 12:12Ict-työläinen ei ole koskaan valmis
TTL:n mentorointiohjelmassa sekä aktori että mentori oppivat uutta. »
KOULUTUS
Aleksi Kolehmainen, 4.7.2010 17:12Tietoturva, olalle vie!
David Perry haluaa valistaa käyttäjiä armeijan mallilla – vähän kerrallaan mutta joka päivä. »
KULTTUURI
Jonna Vuokola, 3.7.2010 19:15Epäsovinnainen taide sopii yritysjohtajalle
Tiedon toimitusjohtajan Hannu Syrjälän mielestä kulttuuri on hyvä keino laajentaa näkökulmaa. »
VIESTINVÄLITYS
Annika Korpimies, 11.7.2010 15:19Aika jättää kirjepostista
Kun sähköposti jyrää kirjepostin, Itellan on pakko kehittää uusia tapoja tienata. »
KULTTUURI
Jonna Vuokola, 4.7.2010 12:04Kolme kysymystä elämästä – vastaajana Tiedon toimitusjohtaja
IHMISET
Tiina Siltala, 1.7.2010 20:15Mato Valtonen meni sekaisin netistä
Entinen wap-yrittäjä unelmoi kirjojen kirjoittamisesta ja ansaitsee elantonsa puhumalla. »
SOSIAALINEN MEDIA
Kari Ahokas, 22.3.2010 20:40Johtajien tietämättömyys jarruttaa yhteisömedian yrityskäyttöä
SEMANTTINEN WEB
Heikki Siljamäki, 20.2.2010 13:17Semanttinen web: verkon seuraava vaihe kehittyy lupaavasti
TERVEYS-IT
Johanna Puustinen, 13.2.2010 13:10Terveydenhuollon tietojärjestelmät ovat kroonisia potilaita
STARTUPIT
Anna Ruohonen, 6.2.2010 13:30Taantuma on oiva hetki perustaa yritys
Oletko harkinnut omat tivi-yrityksen perustamista? Taantuma on otollinen aika ryhtyä toimeen. »
Aiemmin verkkopalvelussa
MAAILMANMARKKINAT
Tiina Siltala, 19.10.2009 9:16Suomi-it kiinnostaa Kiinassa
Maailman nopeimmin kasvavasta maasta alkaa virrata investointeja Suomeenkin. »
Aiemmin verkkopalvelussa
UBIIKKI
Jonna Vuokola, 3.10.2009 11:07Ubiikkiyhteiskunta hiipii huomaamatta
Aiemmin verkkopalvelussa
MIKROBLOGIT
Jouni Junkkaala, 27.4.2009 8:05Viestinnän viimeisin vallankumous
Aiemmin verkkopalvelussa
WLAN
Juho Pentikäinen, 21.3.2009 13:35Näin nousee wlan
Verkkoinfra pitää suunnitella ennalta – ainakin suojellussa Finlandia-talossa. »

