Ovaj članak će biti dodatak prethodnom (i detaljnije će otkriti suštinu direktnog prepoznavanja teksta.
Počnimo sa suštinom, koju mnogi korisnici ne razumiju u potpunosti.
Nakon skeniranja knjige, novina, časopisa i sl. Dobijate skup slika (tj. Grafičkih datoteka, a ne teksta) koje treba prepoznati u posebnom programu (jedan od najboljih za to je ABBYY FineReader). Prepoznavanje - to je proces dobijanja teksta iz grafike, i to je taj proces koji ćemo napisati detaljnije.
U mom primjeru, napravit ću screenshot ove stranice i pokušati dobiti tekst iz njega.
1) Otvaranje datoteke
Otvorite sliku (e) koju planiramo prepoznati.
Inače, ovdje treba napomenuti da možete otvoriti ne samo formate slika, već i, primjerice, DJVU i PDF datoteke. Ovo će vam omogućiti da brzo prepoznate čitavu knjigu, koja se preko mreže obično distribuira u ovim formatima.
2) Uređivanje
Odmah se slažem sa automatskim prepoznavanjem, nema smisla. Ako, naravno, imate knjigu u kojoj su samo tekstovi, slike i tablice, plus skenirani u odličnoj kvaliteti, onda možete. U drugim slučajevima, bolje je ručno podesiti sve oblasti.
Obično, prvo morate ukloniti nepotrebna područja sa stranice. Da biste to uradili, kliknite na dugme za uređivanje na panelu.
Zatim morate ostaviti samo područje s kojim želite raditi duže. Za to postoji alat za podrezivanje nepotrebnih granica. Izaberite režim u desnoj koloni. da prekine.
Zatim odaberite područje koje želite napustiti. Na slici ispod, označena je crvenom bojom.
Usput, ako imate nekoliko otvorenih slika, možete primeniti obrezivanje na sve slike odjednom! Zgodan je da se ne seku svaki zasebno. Imajte na umu da na dnu ovog panela postoji još jedan odličan alat -brisač. Pomoću njega možete izbrisati nepotrebne razvoda, brojeve stranica, mrlje, nepotrebne posebne znakove i pojedinačne dijelove slike.
Kada kliknete da biste odsekli ivice, originalna slika bi trebalo da se promeni: ostat će samo radni prostor.
Tada možete izaći iz uređivača slika.
3) Odabir područja
Na panelu iznad otvorene slike nalaze se mali pravougaonici koji definišu područje skeniranja. Ima ih nekoliko, razmotrimo ukratko najčešće.
Slika - program neće prepoznati ovo područje, jednostavno će kopirati navedeni pravokutnik i zalijepiti ga u prepoznatljiv dokument.
Tekst je glavna oblast na kojoj će se program fokusirati i pokušaće da dobije tekst sa slike. Naglasićemo ovo područje u našem primjeru.
Nakon odabira, površina je obojena u svijetlozelenu boju. Tada možete preći na sljedeći korak.
4) prepoznavanje teksta
Nakon što su sva područja postavljena, kliknite na komandu menija da biste je prepoznali. Srećom, u ovom koraku ništa više nije potrebno.
Vreme prepoznavanja zavisi od broja stranica u dokumentu i snage računara.
U prosjeku, jedna puna stranica skenirana u dobrom kvalitetu traje 10-20 sekundi. na PC računaru (prema današnjim standardima).
5) Provera grešaka
Bez obzira na originalni kvalitet slika, obično se uvek prepoznaju greške. Ipak, do sada nijedan program ne može u potpunosti eliminisati rad osobe.
Kliknite na opciju za naplatu i ABBYY FineReader će početi da vam šalje, zauzvrat, mesta u dokumentu gde je naišao. Vaš zadatak, upoređujući originalnu sliku (usput, pokazat će vam ovo mjesto u proširenoj verziji) s varijantom prepoznavanja - odgovoriti potvrdno, ili ispraviti i odobriti. Onda će program preći na sledeće teško mesto i tako dalje dok se ne proveri ceo dokument.
U principu, ovaj proces može biti dug i dosadan ...
6) Očuvanje
ABBYY FineReader nudi nekoliko opcija za spremanje vašeg rada. Najčešće se koristi "tačna kopija". Ie ceo dokument, tekst u njemu, biće formatiran na isti način kao u izvoru.Prikladna opcija je da se prebaci u Word. Tako smo učinili u ovom primjeru.
Nakon toga vidjet ćete svoj prepoznatljivi tekst u poznatom Word dokumentu. Mislim da nema svrhe dalje opisivati šta da se radi s njom ...
Stoga smo analizirali konkretan primjer kako prevesti sliku u običan tekst. Ovaj proces nije uvijek jednostavan i brz.
U svakom slučaju, sve će zavisiti od originalnog kvaliteta slike, vašeg iskustva i brzine vašeg računara.
Dobar posao!