TEST RUN<>
032013<><>

FreeOCR 4.2

Besplatno optičko prepoznavanje teksta

Biranje dela teksta za skeniranje, uz uklanjanje formatiranja
Za razliku od svih ostalih tipova programa, alati za optičko prepoznavanje teksta nisu rasprostranjeni, niti su često viđeni na download sajtovima. Razlog za to je što tehnologija prepoznavanja teksta zahteva velike istraživačke kapacitete, koje malo koja kompanija može sebi da priušti. Uostalom, zato na tržištu i opstaje tek nekoliko kvalitetnih OCR rešenja.

Povremeno naletimo na neke pokušaje alternativnih rešenja za prepoznavanje teksta koja nisu dovoljno funkcionalna, ali mogu da budu interesantna zbog nekih drugih kvaliteta. U ovoj grupi programa svakako se kao kvalitet može uzeti i niska cena, a u slučaju FreeOCR-a to što je besplatan. OCR alati iz prve lige preskupi su za većinu kućnih korisnika jer ne opravdavaju uložena sredstva, sem ukoliko je proces OCR-ovanja masovan i svakodnevan. Ako spadate u grupu korisnika kojima je potrebno povremeno prebacivanje u digitalnu formu nekog kraćeg dokumenta ili prebacivanje već pripremljenog PDF-a u tekstualnu formu, FreeOCR će uspešno automatizovati veći deo posla. Da vas odmah upozorimo, na tako dobijenim dokumentima uvek će biti potrebno finalno podešavanje, popravljanje grešaka i ručno formatiranje. Ipak, krenimo redom.

Skeniranje uz delimično očuvanje strukture originalnog teksta
FreeOCR dozvoljava nekoliko različitih tipova ulaznih dokumenata. Tu je standardna mogućnost automatskog preuzimanja teksta direktno sa skenera, učitavanje ranije pripremljene slike (tekstualni dokument u grafičkoj formi) ili ranije pripremljenog PDF-a. Kada se dokument jednom nađe učitan u programu, dalji tok obrade je identičan bez ozbira na ulazni format.

Radni deo programa podeljen je na dve celine. S leve strane je izvorni dokument, a s desne se prikazuje OCR-ovani tekst. Prilikom procesa OCR-ovanja moguće je prepoznavanje označenog dela stranice, cele stranice ili celog dokumenta, ma koliko on stranica imao.

Za proces OCR-a od suštinske je važnosti da se odabere odgovarajući jezik. Među podržanim jezicima nema srpskog, ali se naša slova mogu dobiti jednostavnim trikom. Naime, jedan od podržanih jezika je poljski, a on sadrži sva naša latinična slova. Možda će izbor poljskog jezika rezultovati nešto lošijim prepoznavanjem teksta na srpskom jeziku nego što bi to bilo da postoji srpski rečnik, ali to jednostavno ne možemo da znamo. Ako ništa drugo, bar će naša latinična slova biti uredno prepoznata, što će smanjiti količinu manuelne intervencije na OCR-ovanom dokumentu. Napravili smo mali eksperiment, koji je pokazao koliko izbor jezika utiče na kvalitet prepoznavanja teksta. Prvo smo deo teksta OCR-ovali sa podešenim engleskim jezikom, a onda smo isti proces ponovili i sa setovanim poljskim jezikom. Razlike u prepoznavanju nisu zanemarljive. Na priloženoj slici možete da vidite da poljska varijanta ima znatno manje grešaka i na njoj je tekst prepoznat mnogo pravilnije. Nažalost, kada je ćirilica u pitanju, FreeOCR vam neće biti od velike pomoći koji god jezik da odaberete.

Jedna od stvari koja nedostaje FreeOCR-u je očuvanje stilova teksta i izgleda originalne stranice. Prilikom procesa prepoznavanja, tekst će biti ispisan jednim fontom (koji se podešava u setovanjima programa). Problemi sa reprodukovanjem izgleda stranice najuočljiviji su onda kada je tekst originala ispisan u više kolona i kada na stranici postoje slike. Kompletan layout stranice ipak je moguće reprodukovati, ali samo zaobilaznim putem. Da biste dobili OCR-ovanu stranicu koja je slična originalnoj potrebno je da se prvo u nekom tekst procesoru definišu kolone na stranici. Zatim mora da se koristi parcijalno OCR-ovanje teksta (svake kolone posebno, posebno naslova, posebno hedera, futera itd.), dok slike moraju ručno da se kopiraju na identične pozicije na stranici. Posao nije jednostavan, ali u ekstremnim slučajevima, kada je potrebno da se sačuva izgled originalne stranice, može da posluži za prvu pomoć.

FreeOCR svakako nije najbolje rešenje ako se gleda samo kvalitet OCR programa. Međutim, ako se u kalkulaciju ubaci i cena, skala njegove isplativosti podiže se na znatno viši nivo. Kompromis je što zahteva veći stepen angažovanja korisnika da bi se OCR-ovana stranica dovela do potpuno upotrebljivog nivoa, ali ukoliko vam je optičko prepoznavanje karaktera potrebno samo povremeno, mislimo da će FreeOCR taj posao da obavi na prihvatljivo uspešan način.

Branislav BUBANJA

 
BlueStacks Beta, YouWave Home 4.0.2, WindowsAndroid, Android SDK
FreeOCR 4.2
Šta mislite o ovom tekstu?
Windows Post-Install Wizard 8.6.3
Free PDF to Flipbook 3.0
Get Linux 2.8.0.0
FaceFilter 3 Pro
Chromium OS Vanilla
Winstep Nexus 12.2
Game Downloader 3.6
Bitdefender QuickScan 0.9.9
Text to Voice 1.10
PolarClock 3.0
Translucator
YouTube Anywhere Player 2.3.4

Potrebno:
Windows
Veličina:
11,05 MB, 42,26 MB na HD-u
Cena:
program je besplatan
Adresa:
www .paperfile .net
Home / Novi brojArhiva • Opšte temeInternetTest driveTest runPD kutakCeDetekaWWW vodič • Svet igara
Svet kompjutera Copyright © 1984-2018. Politika a.d. • RedakcijaKontaktSaradnjaOglasiPretplata • Help • English
SKWeb 3.22
Opšte teme
Internet
Test Drive
Test Run
PD kutak
CeDeteka
WWW vodič
Svet igara



Naslovna stranaPrethodni brojeviOpšte informacijeKontaktOglašavanjePomoćInfo in English

Svet kompjutera