INTERNET<>
052003<><>

Novi Internet pretraživači

Probajte Grub

Na pomolu je drugi rat Internet pretraživača

Kord Kembel
Kompanija „LookSmart” ima ambiciozan plan za pretraživanje Weba. Koristeći računare i Internet veze dobrovoljaca, „LookSmart” želi da napravi Web pretraživač sa najvećom i najsvežijom bazom na svetu. Tehnologija koja to treba da omogući slična je onoj koju SETI@Home koristi za traganje za vanzemaljskom inteligencijom. Korisnik koji želi da učestvuje u projektu instalira screen saver koji pretražuje Web, a aktivira se kada je računar „besposlen” . Zamisao je da će, kada broj učesnika dovoljno poraste, kompanija imati dovoljno kapaciteta na raspolaganju da svakodnevno osvežava bazu Internet stranica.

Autor softvera je Kord Kembel koji je rad na Grubu, kako se klijent zove, počeo još 2000. godine (engl. grub – riti, kopati). Ove godine „LookSmart” je kupio njegovu kompaniju za 1,5 miliona dolara i već u aprilu počeo da koristi materijal koji stiže od Grub klijenata širom sveta kao dodatak svom pretraživaču na www.looksmart.com. Broj dobrovoljaca polako se uvećava, a trenutna brzina pretraživanja je oko 70 miliona stranica na dan. U odnosu na sadržaj Interneta, koji se procenjuje na oko 10 milijardi stranica, pomenuta brzina obrade deluje relativno skromno. Efektivno, međutim, rezultat je sasvim dobar. Trenutno najpopularniji pretraživač Google, koji ima informacije o oko 3 milijarde stranica, pretražuje tek oko 150 miliona stranica na dan. Još važnije je da Google uspeva da informacije o pojedinačnoj stranici „osveži” tek jednom svakih mesec dana, što korisnici trenutno najviše zameraju.

Distribuirano

Tajna uspeha Googlea u prvom sukobu pretraživača bila je u prebacivanju operacije sa skupih sistema superračunara na klastere sastavljene od hiljada jeftinih PC-a. Privlačenjem desetina hiljada dobrovoljaca „LookSmart” se nada pobedi u istoj bici. SETI@Home je najveći primer virtuelnog superkompjutera. Više od četiri miliona dobrovoljaca doprinosi ukupnoj računarskoj snazi od oko 52 teraflopsa ili 52 triliona operacija u sekundi. Poređenja radi, trenutno najmoćniji superkompjuter, Earth Simulator, nalazi se u Japanu i postiže tek oko 30 teraflopsa. Vredno je pomena da je Earth Simulator koštao japansku vladu nešto više od milijardu dolara. Kembel posebno naglašava ekonomsku prednost distribuiranog sistema pretraživanja nad centralizovanim: tradicionalni pretraživači moraju da obrade značajno više dokumenata nego što na kraju iskoriste za indeksiranje. Zbog visoke cene telekomunikacionih veza ovakav pristup značajno poskupljuje proces. Decentralizovan sistem ne mora da se bavi preuzimanjem i obradom stranica koje se nisu promenile. Distribuirani klijenti će javiti kratku poruku centrali i time uštedeti dragoceno vreme i bandwidth. Kako je broj statičnih stranica veliki, razlika u ceni je značajna. Grub može da pretražuje stranice i interno, što je zgodno za webmastere koji mogu da automatizuju slanje dnevnih izveštaja o promenama i povećaju šanse da zainteresovani korisnik dođe baš kod njih.

Deni Salivan, urednik elektronskog magazina koji se bavi pretraživačima „Search Engine Watch”, skeptičan je u pogledu pouzdanosti ovakvog sistema pretraživanja. Poznata je pojava kreiranja ekstra stranica da bi se prevarili pretraživači, tj. njihovi sistemi rangiranja, kako bi se stranica pojavila na vrhu rezultata pretrage kao relevantnija. Kada korisnik ima kontrolu nad alatom za indeksiranje, kaže Salivan, prilika za varanje je još neposrednija. Kembel objašnjava da su baš zato implementirali posebne procedure provere, kao npr. zadavanje istog upita različitim klijentima. Potencijalni napadač možda ima kontrolu nad nekim brojem računara, ali nema načina da „pogodi” koji će računar dobiti zadatak da obavi proveru.

Test

Mi smo probali Grub klijent – instalacija je trivijalna i standardna podešavanja su dosta razumna. Grub daje punu kontrolu korisniku u smislu izbora kada i koliko svojih kapaciteta želi da ustupi za pretragu. U našem testu Grub je s maksimalnim podešavanjima, za nekoliko minuta preko ADSL veze, obradio stotinak stranica bez ikakvog uticaja na normalan rad. Svaki pojedinačni klijent dobija od „centrale” konkretan zadatak da pretraži delić Interneta, a po završetku raportira rezultate centrali u San Francisku. Zanimljivo je posmatrati taj proces koji se inače odvija u „crnim kutijama”, kako korisnik vidi današnje pretraživače. Grafovi se pojavljuju kao na komandnoj tabli automobila, brzina pretraživanja, smenjuju se posećene adrese…

Optimizacija

Glavna prednost sistema, pored svežih rezultata jeste semantička analiza. Kada Grub uspe da privuče dovoljno dobrovoljaca, to će omogućiti analitički vid povezivanja sadržaja. Umesto slepog traganja za rečima ili prostim vezama, biće moguće analizirati smisao i kontekst njihovog pojavljivanja, što će značajno unaprediti kvalitet rezultata pretraživanja. Ostali pretraživači takođe se kreću ka optimizaciji pretrage. Piter Norvig, zadužen za kvalitet pretrage u „Googleu”, objašnjava da kompaniji ne nedostaje grube računarske sile i da se više radi na razvijanju novih pravila i kategorizacija sadržaja. Nova sekcija posvećena vestima, koja se osvežava više puta na dan, primer je katalogizacije sadržaja, što će biti sledeći korak.

Dalje...

Prostora za nove koncepte svakako ima. Podatak o preko 300 miliona upita na dan govori da je tržište više nego zainteresovano za nove usluge. Kompanije pokušavaju da obezbede svoj deo kolača raznim pristupima. „Kartoo” (www.kartoo.com) recimo prikazuje rezultate pretrage grafički. „Microsoft” se uključio u trku s prilično pompeznom najavom da smatra „Google” za direktnog takmaca i da će do kraja godine da se pojavi sa sopstvenim servisom. MSN za sada koristi usluge „Overture Services Inc.” za tzv. „plaćeno pretraživanje” gde se kao rezultati pretrage pojavljuju samo kompanije koje su unapred platile prostor. „Yahoo” je za 235 miliona dolara kupio pretraživač „Inktomi Corp”.

Situacija se postepeno zagreva i izgleda da je novi rat pretraživača na pomolu već ovog leta. S rapidnim rastom količine informacija na Webu, dobar način klasifikacije sve je preče potreban.

Damjan PELEMIŠ

 
.yu
ZoeOnAOL i družina
Provajder info
Nahranite kuče preko Interneta
„Zakon o Internetu” i sudska praksa
Muke po Kevinu (Mitniku)
Linux laboratorija
Novi Internet pretraživači
Šta mislite o ovom tekstu?
Internet na Everestu
Kiberspomenik
Home / Novi brojArhiva • Opšte temeInternetTest driveTest runPD kutakCeDetekaWWW vodič • Svet igara
Svet kompjutera Copyright © 1984-2018. Politika a.d. • RedakcijaKontaktSaradnjaOglasiPretplata • Help • English
SKWeb 3.22
Opšte teme
Internet
Test Drive
Test Run
PD kutak
CeDeteka
WWW vodič
Svet igara



Naslovna stranaPrethodni brojeviOpšte informacijeKontaktOglašavanjePomoćInfo in English

Svet kompjutera