Vuoden 2011 Suomi-keräys ja verkkoarkiston tilastot

Kuluneena vuonna 2011 toteutettiin kesä-heinäkuussa koko Suomen kattava teemakeräys aiempaan suuremmassa laajuudessa, vaikka itse URL-osoitteiden määrä väheni. Aineistoa kertyi pakattuna yli 14 TB ja noin 200 miljoonaa tiedostoa.

Kerätyssä aineistosta video- ja muut normaalista teksti- ja ääniaineistosta poikkeavat aineistot tuntuvat olevan aliedustettuina koko verkon oletettavaan kokonaismääriin nähden, joka johtunee erikoisimissa aineistoissa vastaantulevista lukuisista teknisistä ongelmista.

Muuten aineisto jakautuu luonnollisesti fi- ja ax-päätteisiin verkkotunnuksiin, sekä pääasiassa suomessa sijaitseviin net- ja com-päätteisiin osoitteisiin.

– Tomas Ukkonen

 

Posted in Yleinen | Comments closed

Keräykset alkuvuonna 2010 ja robots.txt

Ennen heinäkuun alkua verkkoarkistoon kertyi aineistoa aina vain vauhdikkaammin, noin 14 teratavun edestä. Alkuvuonna aineistoa kartutettiin pääasiassa yhä perusteellisemmilla keräyksillä, joissa pyrimme noutamaan tiedostoja kaikilta Suomessa fyysisesti sijaitsevilta palvelimilta, sekä tiheillä keräyksillä nopeasti muuttuvilta sivuilta. Lisäksi keräsimme erilaisia aihe-alueita, muunmuassa luontoon, Kalevalaan ja Islannin tulivuorenpurkaukseen liittyviä sivustoja.

Keräyksissämme olemme myös siirtyneet käytäntöön, jossa sivuja kerätessämme sivuutamme jatkossa pääsääntönä verkkosivuilla käytössä olevat robots.txt tiedostot mikäli niiden noudattamiseen ei ole mitään erityistä syytä. Näin tarkoituksenamme on parantaa verkkoarkiston laatua ja kattavuutta jatkossa.

Itse kerätyt aineistot tulevat käyttöön verkkoarkiston vapaakappaletyöasemiin noin 1-6 kuukauden viiveellä.

– Tomas Ukkonen

Posted in Yleinen | Comments closed

Verkkotunnustietoja osaksi arkistoa

Olemme liittäneet osaksi Verkkoarkistoa pienen lisäpalvelun: Viestintäviraston Fi-verkkotunnuspalvelun tiedot ovat nyt käytettävissä varsinaisen verkkoarkiston yhteydessä Vapaakappalekirjastoissa. Tavoitteena on tallentaa rekisteri noin kerran vuodessa joten tulevaisuudessa voivat tutkijat sitten tarkastella kuka jonkin tietyn fi-päätteisen verkkotunnuksen on minäkin vuonna omistanut.

– Leena Saarinen

Posted in Yleinen | 1 Comment

Lukuja verkkoarkistosta

Arkiston tilastot aloitetaan nykyään vuodesta 2006, koska lainsäädännön vuoksi se on ensimmäinen vuosikerta,  jonka Kansalliskirjasto voi asettaa yleisön käytettäväksi.

Yksinkertaisinta on kuvata arkistoa kerättyjen tiedostojen ja datan määrällä. Näistä jälkimmäinen annetaan pakkaamattoman datan määränä, joka on haravoitu Internetistä. Kirjaston levypalvelimilla aineisto säilytetään eri tavoin pakattuna tilan säästämiseksi.

Verkkoarkistoon haravoitu  ‘tiedosto’ tarkoittaa todella vain tätä eikä muuta yksikköä kuten Internetistä  kerättyä sivua tai sivustoa. Tilastossa on siis jokainen kuva-, musiikki- tai muuten linkitetty tiedosto laskettu mukaan itsenäisenä.

  • Vuosina 2006-2008 kerättiin noin 146 miljoonaa tiedostoa ja 8,4 TB dataa (pakkaamatonta)
  • Vuonna 2009 on kerätty 1.5.2009 mennessä noin 9 miljoonaa tiedostoa ja 500 GB dataa (pakkaamatonta)

Näin suuresta määrästä dataa voisi esittää useita kuvailevia lukuja, mutta mainitaan tässä vain tiedostoformaattien osuus. Lukumääräisesti neljä yleisintä tiedostotyyppiä ovat html-, jpeg-, gif- ja pdf-tiedostot.  Tästä huolimatta arkistossa on runsaasti myös ääni-, video- ja animaatiotiedostoja sekä useita satoja erilaisia formatteja, joista osa vaikuttaa melko harvinaisilta.

Suomi-keräykset

Suurin osa verkkoarkiston sisällöstä tulee vuosittaisista Suomi-keräyksistä, joilla tavoitellaan suurempaa tai pienempää osaa suomalaisiksi määriteltävistä Internet-sivustoista.

Keräystoiminnan alkuaikoina kirjastolla oli käytössä nykyistä paljon vähemmän levytilaa arkistointiin. Tavoitteena oli silloin hankkia edustava näyte suomalaisista .fi-päätteisistä sivuista, ihan kaikkea ei edes uskottu saatavan. Vuosittain on kerätty melko edustavia, noin 50 miljoonan tiedoston otoksia .fi-domainista.

Viime vapun jälkeisiin lukuihin kannattaa lisätä vuoden 2009 Suomi-keräys, joka on vielä kesken monimutkaisten levyjärjestelyjen takia. Siinä on kaikesta huolimatta haravoitu jo noin 1,5 TB eli 24 miljoonaa tiedostoa.

Tämänvuotinen Suomi-keräys on luonteeltaan erilainen kuin edelliset, joissa tavoiteltiin .fi-päätteisiä sivustoja. Tämänvuotisella ponnistuksella halutaan tallettaa niiden lisäksi muutkin kotimaiset sivustot, joiden osoitteet päättyvät esimerkiksi .com-, .net- ja .org-tunnuksiin. Se, miten nämä kaikki sivut etsitään ja toisaalta rajataan suomalaisiksi tai Suomeen liittyviksi, on toisen kirjoituksen aihe.

Arkiston kaksi indeksiä

Datamassojen järjestely, sijoittelu ja indeksointi vievät jonkin verran aikaa keräyksien jälkeen, mutta suuri osa arkistosta on jo käytettävissä

Arkistosta voi etsiä vapaakappalekirjastojen päätteillä sivuja kahdesta indeksistä.

  • URL-osoitteella ajalta tammikuu 2006-toukokuu 2009.
  • Vapaita sanahakuja voi tehdä vuosilta 2006 ja 2007. Myös vuoden 2008  indeksit on laskettu mutta ne täytyy vielä loppusijoittaa sopivalle levylle.

– Kaisa Kaunonen

Posted in Yleinen | Leave a comment

Mitä tapahtuu ehdotetulle linkille

Olemme saaneet palautelomakkeen kautta jonkin verran linkkejä verkkosivuihin jotka puuttuvat verkkoarkistosta.  Olemme kiitollisia kaikista ehdotuksista verkkoarkiston kartuttamiseksi.

Kaikki linkit käsitellään ja lain piiriin kuuluvat (siis karkeasti ottaen kaikki suomalaiset ja suomalaiselle yleisölle tarkoitetut aineistot) lisätään kerättävien aineistojen listalle. Sieltä ne haravoidaan talteen satunnaisin aikavälein, korkeitaan puolen vuoden viiveellä. Kiireellisemmin reagoimme vain jos aineisto on erikseen ilmoitettu lähiaikoina katoavaksi.

Se, että sivu lopulta näkyy verkkoarkiston hakemistossa voi kuitenkin viedä vielä huomattavasti kauemmin sillä hakemistossa näkyvät ainoastaan käyttöön asetetut sivut.

Nykyisellä laitteistollamme kerätyt aineistot indeksoidaan noin vuoden sisällä keräyksen tekemisestä, jonka jälkeen ne pian näkyvät arkistossakin. Suuri vuosittainen Suomi-keräys on indeksoinnisssa etusijalla joten lisäkeräykset joutuvat odottamaan vuoroaan vaikka ne ovat periaatteessa nopeita prosessoida.

– Leena Saarinen

Posted in FAQ | 2 Comments

Alkuvuosi 2009

Alkuvuodesta 2009 tapahtui paljon Kansalliskirjaston verkkoarkiston toiminnassa.  Vuosi alkoi tavalliseen tapaan muutamalla teemakeräyksellä, joissa paikkaltiin aiempien vuosien keräyksiin jääneitä pahimpia aukkoja, sekä europarlamenttivaalikeräyksellä, jossa kerättiin ajankohtaista materiaalia vaaleihin liittyen.

Kupolisali

Verkkoarkisto avattiin Kansalliskirjaston kupolisalissa

Taustalla tapahtui kuitenkin myös paljon muuta. Kansalliskirjaston verkkoarkisto avautui yleisön käyttöön huhtikuun alussa kansanedustaja Jyrki Kasvin toimesta, jonka jälkeen kesäkuussa myös verkkoarkiston julkinen hakemisto-osa avautui kaikkien käytettäväksi nettiin. Tämän lisäksi taustalla on tapahtunut myös parannuksia aineistojen keruutavoissa ja hakuindeksien laskennassa, jonka avulla verkkoarkistoa on jatkossa yhä helpompi ja hyödyllisempi käyttää.

Alkuvuodesta olemme myös saaneet palautetta arkiston käyttäjiltä ja tehneet yhteistyötä aineistojen levittäjien kanssa, minkä johdosta olemme saaneet tai saamassa mukaan aiemmista keräyksistä puuttuvaa materiaalia.

Alkuvuoden keräykset

Aikavälillä 01/2009 – 07/2009 kerättiin aineistoa verkkoon seuraavilla suuremmilla teemakeräyksillä:

  • nettikirjallisuus
  • sateenkaari / LGTB-keräys
  • ilmastomuutos
  • blogit
  • europarlamenttivaalit 2009

Nettikirjallisuus

KirjaTähän aiheeseen liittyen keräsimme noin muutamalta sadalta sivulta kirjallisuuteen, kirjoittamiseen, sarjakuviin ja runouteen liittyviä sivuja. Netissä on mm:ssa paljon sivuja ihmisille, jotka harrastavat proosan, sarjakuvien tai runojen kirjoittamista, kirjailijoiden omia sivuja sekä erilaisia fani-tyyppisiä sivustoja.

Sateenkaari / LGTB-keräys

LGTB-keräyksessä keräsimme talteen erillaisia homo, lesbo, bi ja trans-aiheisia sivustoja, jotka eivät aina keräänny talteen verkkoarkistoon erityisen hyvin mikäli sivujen verkkonimet ovat muita kuin “.fi” päätteisiä. Netissä tähän aiheeseen liittyen löytyy toki paljonkin sivuja, joten aihetta rajattiin siten että sivuilla täytyy olla jokin melko kiinteä kytkös suomen LGTB-ryhmiin tai kulttuuriin. Selvästi suurimmaksi ryhmäksi keräyksessä muodostuivat erilaisten yhteisöjen sivut sekä blogit, jotka käsittelivät LGTB-aiheita.

Ilmastomuutos

Viime vuosina ilmastonmuutos ja sen torjumiseen liittyvät asiat ovat nousseet yhä selvemmin esille julkisessa keskustelussa. Tämä muutos on nähtävissä myös esimerkiksi Googlen trends palvelussa, jossa ilmastonmuutos on ollut jo muutaman vuoden ajan uutisotsikoissa aiempaa tiheämmin. Tähän liittyen keräsimme ilmasto- ja luonnonsuojelu aiheisia sivustoja ja erilaisia ympäristöystävällistä ideologiaa edustavia kansalaisjärjestöjen sivuja.

Blogit

Yksi suuri puute aiempien vuosien keräyksissä on ollut blogi-sivujen jääminen paitsioon peruskeräystoiminnassa. Tämän johdosta keräsimme alkuvuodesta lähes kaikki suurimpien suomalaisten blogi-sivustojen blogit talteen verkkoarkistoon, mistä syntyi tähänastisista yksittäisistä teemakeräyksistä suurin toteutettu keräys. Samassa yhteydessä myös itse vuosittaista koko Suomen kattavaa laajaa keräystä parannettiin siten, että jatkossa blogit tallentuvat aiempaa varmemmin talteen itse peruskeräyksissä.

Europarlamenttivaalit 2009

Kuten useana vuonna aiemmin, keräsimme myös tämän vuoden vaaleihin liittyvää aineistoa sekä ennen että jälkeen vaalien. Kaikkia vaaleissa aktiivisten ehdokkaiden ja puolueiden sivustot ja vaalikoneet kerättiin talteen useaan kertaan ja netissä ollutta aiheeseen liittyvää uutisointia kerättiin talteen verkkoarkistoon.

Vuoden 2009 koko Suomi keräys

Alkuvuoden 2009 päätteeksi nyt kesäkuussa aloitettiin myös vuosittainen koko Suomen kattava keräys. Tänä vuonna verkkoarkistoon haravoidaan talteen kaikki Suomessa fyysisesti sijaitsevat www-sivut, sekä sivut, joilla on .fi- ja .ax-päätteisiin loppuvat verkkotunnukset. Tämä koko Suomen kattava keräys lähti käyntiin kesäkuussa ja valmistunee ennen elokuun alkua. Itse verkkoarkistossa aineisto on käytettävissä mitä todennäköisimmin tämän vuoden loppuun mennessä.

– Tomas Ukkonen

Posted in Teemakeräykset | 1 Comment

Vuoden 2008 teemakeräykset

Vuonna 2008 kerättiin (eli haravoitiin) verkkoarkistoon aineistoa seuraavilla suuremmilla teemakeräyksillä (koko Suomen kattavan yleiskeräyksen lisäksi):

Haravoita

Photo by Mimi K.

  • Kunnallisvaalit 2008
  • Maahanmuuttajat
  • Ulkosuomalaiset
  • Mediataidekeräys
  • Tietokonetaidekeräys
  • Kauhajoen ammuntapaus

Koska koko Suomen kattava keräys kerää kattavasti kaikki Suomessa sijaitsevat sivut kerran vuodessa, on teemakeräyksissä pyritty keräämään sivuja joko ajankohtaisista tapahtumista tai ulkomailla sijaitsevista palvelimista.

Kunnallisvaalit 2008

Eduskunta 1907Kerättiin pääasiassa ehdokkaiden ja puolueiden kotisivuja, vaalikoneiden sivuja sekä aiheeseen liittyvää uutisointia muutaman viikon ajan.

Maahanmuuttajat ja ulkosuomalaiset

Keräyksessä kerättiin maahanmuuttajien omia sivuja, kuten erillaisten maahanmuuttajajärjestöjen sivuja, viranomaisten maahanmuuttoon liittyviä sivustoja ja materiaalia sekä maahanmuutto- ja monikulttuurisuusaiheisia blogeja. Ulkosuomalaisteemassa talteen haravoitiin ulkomaisia Suomen suurlähetystöjen sivuja, ulkomailla asuvien suomalaisyhteisöjen sivuja ja erilaisia ulkomailla suomenkielistäpalvelua tarjoavien yritysten sivuja.

Mediataide

Mediataidekeräyksessä kerättiin suomalaisten taiteilijoiden sivuja, erilaisten taidetapahtumien sivuja sekä kollektiivien, portaalien ja yhdistysten sivuja. Myös taiteeseen liittyvää tutkimusta ja opinahjojen sivuja haravoitiin keräyksessä.

Tietokonetaide

Classical plasma effect

Tietokonegrafiikkaefekti

Keräyksessä keskityttiin keräämään laajasti pääasiassa ns. demoscene-alakulttuuriin liittyviä sivuja, musiikkia, kuvia ja animaatiota. Keräykseen otettiin mukaan lisäksi tietokoneaiheisten tapahtumien sivuja sekä alan tuotoksia tekevien ryhmien tai yksittäisten tekijöiden sivuja. Koska kyseessä oli ensimmäinen tämän aiheinen teemakeräys kerättiin talteen tuotoksia myös vuosilta 1989-2008.

Kauhajoen ammuntatapaus

Vuonna 2008 tapahtui myös ikävä ammuntatapaus Kauhajoella johon myös Kansalliskirjasto reagoi. Kauhajoen ammuntatapaukseen liittyvää keskustelua ja uutisointia kerättiin reilun viikon ajan sekä suomalaisilta että ulkomaalaisilta sivustoilta.

Jatko

Jatkossa tehdyistä teemakeräyksistä pyritään kertomaan noin muutaman kuukauden välein. Jos mielessäsi on jokin teemakeräysaihe josta keräys kannattaisi tehdä, voit myös ehdottaa sitä teeman aiheeksi verkkoarkiston palautelomakkeella. Huomaa kuitenkin ennen ehdotuksen lähettämistä, että Kansalliskirjaston verkkoarkistoon on tarkoitus kerätä ainoastaan Suomessa sijaitsevaa tai suomalaisille tarkoitettua materiaalia.

– Tomas Ukkonen

Posted in Teemakeräykset | 1 Comment

Verkkoarkiston lokikirja

Luet verkkoarkiston ylläpitäjien (b)logia. Täällä on tarkoitus tiedottaa verkkoarkiston ja vapaakappaletyöasemien toimintoihin ja sisältöön liittyvistä muutoksista. Esimerkiksi kun aineistoon lisätään jonkin tietyn keräyksen yhteydessä haravoidut verkkosivut, tai jos teemme joitakin teknisiä muutoksia jotka saatavat heijastua käyttäjillekin asti.

Päivitystahti tulee tuskin päätä huimaamaan, tiedotamme vain silloin kun on kerrottavaa.

– Leena Saarinen

Posted in Yleinen | Leave a comment