KAATUMISIA JA KORRUPTIOTA
Ilari Sani, 8.10.2009, 11:45Pudottaako muistisi bittejä? Virheet tuhat kertaa luultua yleisempiä
Muistipiirien virheet ovat tuoreen tutkimuksen mukaan huomattavasti luultua yleisempiä. Toronton yliopiston ja Googlen tekemä tutkimus paljastaa, että noin kolmannes tietokoneista tekee vuosittain muistivirheitä.
Muistivirheellä tarkoitetaan sitä, että muistiin tallennettu arvo muuttuu tai katoaa. Tämä voi aiheuttaa tiedostojen tuhoutumista tai tietokoneen äkillisen sammumisen.
Palvelimissa käytettävä ECC-suojaus pystyy tavallisesti huomaamaan ja korjaamaan virheet. Kannettavista ja pöytäkoneista löytyy yleensä vain heikompi ohjelmistotason suojaus.
Pieni määrä susia, paljon virheitä
Tutkimuksessa seurattiin Googlen palvelimia kahden ja puolen vuoden ajan. Tulokset olivat hyvin vaihteleva. Vain kahdeksan prosenttia muistisiruista teki virheitä, mutta nämä sirut tekivät keskimäärin kymmenen virhettä päivässä.
Tutkijoille tuli yllätyksenä, että valtaosa virheistä johtui muistipiirien pysyvistä vioista. Aikaisemmin on oletettu, että muistin käsittelyssä tapahtuu lähinnä satunnaisia virheitä.
Syyttäkäämme emoa

Virheiden määrä kasvaa iän myötä. Kasvu on voimakkainta ensimmäisen kahden vuoden aikana.
Tutkimuksen mukaan vikojen määrä ei riipu muistin valmistajasta eikä käytetystä tekniikasta. Myöskään lämpötilalla ei ollut suurta merkitystä. Sen sijaan käytön määrä ja piirin ikä kasvattivat virheitä – elektroniikkakin kuluu käytössä.
Suurin vaikutus virheiden määrään oli emolevyn valinnalla. Tutkijat epäilevät, että monella emolevyllä on säteilynlähde liian lähellä muistia. Lisäksi emolevyn maadoitus saattaa olla huonosti toteutettu.
Windows-koneiden muistin toimintaa voi testata Windows Memory Diagnostic -välineellä. Mac-käyttäjät puolestaan löytävät mahdolliset havaitut muistivirheet System Profiler -välineestä.
Alkuperäinen tutkimus PDF-muodossa
Huonot kontaktit ainakin aiheuttavat salakavalia muistivirheitä.
Kokemukseni mukaan kannattaa varmistaa että muistin kontaktipinnat ovat puhtaat samoin kuin ettei tökkää lisämuistia, putsaamatta pölyttynyttä muistipaikkaa.
CRC:llä kostutetulla paperinenäliinalla voi vielä pyyhkäistä muistipiirin kontaktipinnat ennen kiinnitystä, etenkin välttääkseen tarpeettomasta voimankäytöstä aiheutuvia emolevyn vaurioita (emolevyn taipuminen).
"About a third of machines and over 8% of DIMMs in
our fleet saw at least one correctable error per year."
Eli yli 8% muistikammoista teki ainakin yhden korjattavissa olevan virheen vuoden aikana.
Lisäksi systeemit olivat serveri tyyppisiä koneita. Niitä ei välttämättä voi verrata esim. läppikseen.
Henkilökohtainen kokemus kertoo että kotikoneesta hajoaa ensin kovalevy. Muisti ongelmat eivät ehdi näkyä ollenkaan. Kymmenen vuotta vanha kone vaihdetaan lähinnä hitauden takia.
Olin viime vuosikymmenen kotimaisen valmistajan palveluksessa ja tässä on uutta vain piirien vanheneminen. ECC:stä luopuminen oli tosi iso moka. Kun viivaleveydet kapenevat, tulevat piirit entistä herkemmiksi sähköisille ja luonnollisen taustasäteilyn aiheuttamille häiriöille. Silloin testasimme emolevyjä omassa EMC-labrassamme ja EMC-ongelmat korreloivat erittäin hyvin emon epävarman toiminnan kanssa. Jos emosta lähtee paljon purinaa se harvoin on luotettava muutenkaan. Sama pätee kortteihin ja oheislaitteisiinkin.
En lukenut vielä tuota raporttia mutta puhuttiinko siellä mitään virtalähteiden antaman jännitteen laadusta?

