PRIMENA<>
022004<><>

Prepoznavanje i sinteza govora

AlfaNum

Dve primene kompjutera koje su oduvek pobuđivale najviše mašte jesu prepoznavanje i sinteza govora. Sa razvojem dovoljno jakog hardvera, i softver za ovu namenu postigao je velike uspehe. Današnji kompjuteri mogu da prepoznaju govor većom brzinom nego što većina ljudi kuca, a sintetizovan glas se sve teže razlikuje od ljudskog.

Nažalost, svi ovi uspesi su skoncentrisani na velike jezike i bogata tržišta jer se radi o multidisciplinarnim problemima na čijem rešavanju u svetu već duži niz godina rade timovi od po više desetina ljudi. Manji narodi, kao što je naš, mogu jedino da čekaju da se neko od velikih smiluje na njih... ili da i oni krenu u nešto kao što je projekat AlfaNum.

Tim sa Fakulteta tehničkih nauka (FTN) u Novom Sadu, predvođen dr Vladom Delićem, sebi je za cilj zacrtao razvoj ovakvih alata za naš jezik, i to bez korišćenja ikakvog posebnog hardvera pošto su današnji kompjuteri dovoljno jaki da bi sve moglo da se obavi softverski. Vremenom je ovaj tim prerastao i u posebno preduzeće, AlfaNum d.o.o, koje se bavi razvojem i plasmanom govornih tehnologija. Rezultati rada tima za sada su pretočeni u dva zaokružena sistema:

AlfaNumASR je sistem za prepoznavanje kontinualnog govora (dakle, može da prepozna i čitave rečenice, a ne samo pojedinačne reči). Sistem radi nezavisno od govornika, što znači da ne mora posebno da se obučava za prepoznavanje svakog novog govornika, a to ga čini idealnim za primene u, primera radi, govornim automatima za pružanje informacija pozivaocima. U rečniku od pedeset reči sistem prepoznaje reči prenete preko telefonske linije sa preko 98% tačnosti (preko 99% na snimku studijskog kvaliteta). Kod rečnika sa većim brojem reči tačnost je manja, ali je efikasan govorni automat najčešće moguće osmisliti tako da se i ne očekuje prepoznavanje više od desetak reči. Pošto sistem vrši fonetsko prepoznavanje, vrlo lako se može naučiti da prepoznaje i nove reči. Osmišljena je i posebna tehnika prepoznavanja niza cifara sa tačnošću većom od tačnosti prepoznavanja svake od njih pojedinačno, čime se dostiže tačnost uporediva sa ljudskom, a sistem vodi računa i o izrazima kao što su „molim vas”, „hmmm” i sličnim, koje korisnici često izgovaraju, a koji nisu od značaja za tok aplikacije. Na Pentium 4 konfiguraciji na 2 GHz ovaj automat može istovremeno da opslužuje 50 linija, što ga čini neuporedivo jeftinijim od ljudskih operatera. AlfaNumASR već koriste „Telebank” sistem Poštanske štedionice, Republička uprava javnih prihoda u Novom Sadu, kao i Generalštab Vojske Srbije i Crne Gore. Govorni automat na kojem se sistem može isprobati aktivan je svake noći od 9 časova uveče do 8 časova narednog jutra na telefonskom broju 021/475-0080.

Ne manje složen problem jeste sinteza govora za koju je zadužen sistem AlfaNumTTS. U odnosu na druge jezike, sintezu govora na srpskom jeziku donekle olakšava to što se reči izgovaraju onako kako se i pišu, ali se, nažalost, na osnovu zapisa ne može predvideti kako se koja reč akcentuje, a bez akcenata bi sintetizovan govor bio neprirodan i neprijatan za slušanje. Dodatno, većina reči u našem jeziku je promenljiva (imenice po padežima, pridevi po licima, rodovima i broju...), tako da je u okviru projekta AlfaNum morao biti razvijen kompletan elektronski akcenatsko-morfološki rečnik srpskog jezika u kojem je sve to evidentirano. Sama sinteza govora se vrši povezivanjem zgodno odabranih segmenata iz već postojećeg snimljenog materijala, primenom raznih tehnika čiji je cilj da se prelazi između segmenata učine što neprimetnijim. Sistem može da čita i ćirilične i latinične tekstove, ispravno čita brojeve (ne cifru po cifru već kao reči), čak i redne. Pored toga, snalazi se čak i sa latiničnim tekstovima u kojima nema naših slova, što je česta pojava kod e-mailova, na primer. Mada nije nepogrešiv, sistem je razvijen do te mere da čita potpuno tečno, tako da je potpuno upotrebljiv za slepe i slabovide osobe, dok mu je primena u telefoniji za sada ograničena na estetski manje zahtevne potrebe, kao što su pomenuti govorni automati. Naravno, ASR se može ali i ne mora spregnuti sa TTS-om tako da može raditi i sa prethodno snimljenim i sa sintetizovanim i sa obe vrste poruka. Trenutno se radi na smanjenju hardverske zahtevnosti ovih programa.

Oba sistema su razvijena od početka i ne zasnivaju se ni na kakvim prethodnim gotovim rešenjima. Prodaju se u vidu softverskih komponenata koje se jednostavno mogu integrisati u razne aplikacije, kao i u okviru gotovih rešenja projektovanih prema zahtevima kupca. Internet sajt projekta AlfaNum nalazi se na adresi www.alfanum.co.yu.

Nikola SMOLENSKI

 
 AKTUELNOSTI
Dvadeset godina Apple Macintosha
Tržište softvera u Srbiji
Broken Saints

 TRŽIŠTE
Standardi zvučnih sistema

 PRIMENA
Prepoznavanje i sinteza govora
Šta mislite o ovom tekstu?
Home / Novi brojArhiva • Opšte temeInternetTest driveTest runPD kutakCeDetekaWWW vodič • Svet igara
Svet kompjutera Copyright © 1984-2018. Politika a.d. • RedakcijaKontaktSaradnjaOglasiPretplata • Help • English
SKWeb 2.54
Opšte teme
Internet
Test Drive
Test Run
PD kutak
CeDeteka
WWW vodič
Svet igaraNaslovna stranaPrethodni brojeviOpšte informacijeKontaktOglašavanjePomoćInfo in English

Svet kompjutera