INTERNET<>
032002<><>

Arhiviranje Web stranica

Web vremeplov

Kako doći do informacija koje su bile na Webu?

Svako ljudsko dostignuće vremenom biva izloženo riziku da u potpunosti ili delimično bude prepušteno zaboravu. Iako mnoga od njih zadesi takav ishod, neka imaju „sreću” da budu sačuvana za nauk i sećanje. Dosadašnji razvoj civilizacije, još od vremena Sokrata, imao je takvo obeležje da je sve što je uspelo da se sačuva od nestanka u vrtlozima epoha moralo u određenom momentu biti preneto u/na odgovarajući fizički medijum. Misli, ideje, emocije ili utisci beleženi su na papir, štampani u knjigama, slikani, vajani, izgrađivani, snimani na nosače zvuka ili slike... Sve to se, jednim delom, uspelo preneti do danas i manifestuje se kroz postojanje galerija, fonoteka, kinoteka ili muzeja. Šta je, međutim, sa World Wide Webom? On nije ni usmeni, ni pisani niti bilo kakav drugi klasični, već medijum sui generis. Da li to znači i nemogućnost očuvanja njegovog istorijata?

Elektronska istorija

Odgovor na ovo pitanje među prvima je pokušao da dâ Brewster Kahle, upravnik WWW arhiva na adresi www.archive.org i predsednik Alexa Interneta, dela sistema Amazon.com. Ovaj sajt je dospeo na naslovne stranice mnogih časopisa kada je novembra 2001. godine predstavio svoj Web-orijentisani interfejs ka sopstvenoj arhivi starih Web stranica, nazvan Wayback Machine. Upravo ova arhiva, veličine impozantnih 100 terabajta, delo je napora g. Kahlea i sadrži elektronski uskladištenu istoriju WWW-a koja obuhvata poslednjih pet godina njegovog postojanja. Poređenja radi, Kongresna biblioteka u Vašingtonu sadrži 20 miliona knjiga, što „prevedeno” iznosi oko 20 terabajta, dakle svega 20% u odnosu na ovaj „muzej Weba”, sa svojih 10 miliona trenutno arhiviranih stranica.

Kahle ne krije svoje oduševljenje fenomenom weba: „WWW je medijum dostupan praktično svima i jedinstveno mesto gde ljudi mogu da objave bilo šta”. Međutim, on istovremeno ukazuje na njegovu osetljivost kada je u pitanju čuvanje sadržaja koji su objavljeni na njemu – zbog svoje elektronske, nematerijalne prirode, Web je efemeran i teško „uhvatljiv”. Sadržaji se brzo menjaju i još brže nestaju, a nesporno je, smatra on, da među njima ima mnogo toga što zavređuje da se sačuva za budućnost. Ukoliko se takvi sadržaji ne sačuvaju na vreme, nepovratno se gube, jer se za razliku od knjiga, na primer, ne može negde „iskopati” jedan „primerak” Web stranice...

E-intelektualno blago

Postojanje jedne takve obimne Web arhive pruža razne mogućnosti za istraživanje od strane sociologa, komunikologa, istoričara i stručnjaka i studenata drugih usmerenja, ali je Kahleova vizija daleko šira: „Ideja je da se stvori sveobuhvatna elektronska biblioteka koja će omogućavati univerzalno dostupan pristup celokupnom ljudskom znanju”.

Iako je krajnji cilj još veoma daleko, www.archive.org je pojedinačno najveći svetski „rudnik” podataka po kojem možete „kopati” i ta aktivnost umnogome podseća na putovanje unazad kroz vreme. Sve što je potrebno jeste da u predviđeno polje ukucate željeni URL i za nekoliko sekundi dobićete listu datuma u kojima je taj URL arhiviran. Kako projekat nije jezički ograničen, mogu se tražiti (i dobiti) stari sadržaji sajtova širom sveta. S obzirom na to da je interfejs u konstantnom razvoju, mogu se uočiti određeni nedostaci, poput toga da na mnogim stranicama nedostaju grafički elementi ili da mnogi linkovi nisu upotrebljivi, što je i razumljivo.

Oprema

Da bi se opsluživala tolika masa podataka potreban je izuzetno jak hardver: trenutno je u upotrebi sistem sa oko 400 povezanih PC-a koji čine jedinstven paralelni kompjuter, 100 TB na diskovima i stotine gigabajta RAM-a. Za opsluživanje baze podataka razvijen je poseban operativni sistem nazvan P2, koji je u stanju da za nekoliko sekundi obradi korisnikov upit, a upita ima u proseku dvesta u sekundi.

PC-i, koji čine jedinstvenu virtuelnu celinu, koriste open-source operativne sisteme – Solaris, FreeBSD i Linux, od kojih se svaki zbog svojih prednosti i nedostataka koristi za tačno određene zadatke.

Crawleri, programi koji sakupljaju materijal sa Weba, napisani su u Pearlu i svoj posao obavljaju intenzitetom od nekoliko stotina GB na dan!

Priča ide dalje...

Davne 1995. godine, ljudi koji su osmislili Altavistu prvi su došli na ideju „Hajde da indeksiramo sve dokumente na Webu!”. Kahleove procene su sledeće: sve knjige na svetu „zauzimaju” 25-30 TB podataka. Sva muzika u poslednjih 100 godina snimljena je na oko milion albuma. Ukupan broj pozorišnih predstava? Oko 100.000. Svih filmova? Nekoliko stotina hiljada... Poenta je, tvrdi on, da je sasvim moguć i izvodljiv projekat prenošenja svih proizvoda ljudskog duha na Web! Uostalom, prvi korak je načinio sam – na adresi tvnews3.televisionarchive.org/tvarchive/html nalazi se arhiva vesti preko 20 TV stanica, u periodu 11–18. septembra 2001. godine.

Dušan KATILOVIĆ

 
Arhiviranje Web stranica
Šta mislite o ovom tekstu?
Internet u politici
Zanimljivo istraživanje putem Interneta
Google naučio srpski
Browser za decu
Pretraživanje slika
Provider info
Da li ste ovisnik od Mreže?
Home / Novi brojArhiva • Opšte temeInternetTest driveTest runPD kutakCeDetekaWWW vodič • Svet igara
Svet kompjutera Copyright © 1984-2018. Politika a.d. • RedakcijaKontaktSaradnjaOglasiPretplata • Help • English
SKWeb 3.22
Opšte teme
Internet
Test Drive
Test Run
PD kutak
CeDeteka
WWW vodič
Svet igara



Naslovna stranaPrethodni brojeviOpšte informacijeKontaktOglašavanjePomoćInfo in English

Svet kompjutera