SKENIRANJE I OCR

Dobar dan

Vjerovatno se svatko od nas suočio sa zadatkom kada treba prevesti papirni dokument u elektronskom obliku. Ovo je posebno neophodno za one koji studiraju, rade sa dokumentacijom, prevode tekstove pomoću elektronskih rječnika, itd.

U ovom članku želim podijeliti neke od osnova ovog procesa. U principu, skeniranje i prepoznavanje teksta je dosta dugotrajno, jer će većina operacija morati biti obavljena ručno. Pokušaćemo da shvatimo šta, kako i zašto.

Ne shvataju svi odmah jednu stvar. Nakon skeniranja (uklapajući sve listove na skeneru) imat ćete slike formata BMP, JPG, PNG, GIF (možda postoje i drugi formati). Tako da sa ove slike treba da dobijete tekst - ova procedura se zove prepoznavanje. U ovom redoslijedu, i biće predstavljen u nastavku.

Sadržaj

1. Šta je potrebno za skeniranje i prepoznavanje?
2. Opcije skeniranja teksta
3. Priznavanje teksta dokumenta
- 3.1 Tekst
- 3.2 Slike
- 3.3 Tabele
- 3.4 Nepotrebne stavke
4. Prepoznavanje PDF / DJVU datoteka
5. Pogreška pri provjeri i spremanju rezultata rada

1. Šta je potrebno za skeniranje i prepoznavanje?

1) Skener

Da biste štampane dokumente preveli u tekstualni oblik, prvo vam je potreban skener i, u skladu s tim, "izvorni" programi i upravljački programi koji su s njim išli. Pomoću njih možete skenirati dokument i spremiti ga za daljnju obradu.

Možete koristiti i druge analogije, ali softver koji ste dobili sa skenerom u kompletu obično radi brže i ima više opcija.

U zavisnosti od toga kakav skener imate - brzina rada se može značajno razlikovati. Postoje skeneri koji mogu dobiti sliku sa lista za 10 sekundi, postoje oni koji će je dobiti za 30 sekundi. Ako skenirate knjigu na 200-300 listova - mislim da nije teško izračunati koliko će puta biti razlike u vremenu?

2) Program za priznavanje

U našem članku, pokazat ću vam rad u jednom od najboljih programa za skeniranje i prepoznavanje apsolutno bilo kojih dokumenata - ABBYY FineReader. Od program se plaća, a zatim ću odmah dati link ka drugom - njegov besplatan analog Cunei forme. Istina, ne bih ih uspoređivao, jer FineReader pobjeđuje u svakom pogledu, preporučujem da ga isprobate svejedno.

ABBYY FineReader 11

Internet sajt: //www.abbyy.ru/

Jedan od najboljih programa te vrste. Namenjen je prepoznavanju teksta na slici. Ugrađene su mnoge opcije i mogućnosti. Može analizirati gomilu fontova, čak i podržati rukom pisane verzije (iako to lično nisam pokušao, mislim da je dobro jedva prepoznati rukom pisanu verziju, osim ako nemate savršen kaligrafski rukopis). Više informacija o radu sa njom će biti objašnjeno u nastavku. Takođe ćemo primetiti da će članak pokriti rad u verziji programa 11.

Po pravilu, različite verzije programa ABBYY FineReader se ne razlikuju mnogo. Isto možete uraditi iu drugom. Glavne razlike mogu biti u praktičnosti, brzini programa i njegovim mogućnostima. Na primjer, ranije verzije odbijaju otvaranje PDF dokumenta i DJVU ...

3) Dokumente za skeniranje

Da, pa sam odlučio da izvadim dokumente u posebnoj koloni. U većini slučajeva, skenirajte sve udžbenike, novine, članke, časopise, itd one knjige i literaturu koja je tražena. Na šta ja vodim? Iz ličnog iskustva, mogu reći da mnogo toga što želite da skenirate - već može biti na internetu! Koliko puta sam lično uštedela vreme kada sam pronašla jednu knjigu ili drugu koja je već skenirana na mreži. Morao sam da kopiram tekst u dokument i nastavim sa njim.

Iz ovog jednostavnog saveta - pre nego što nešto skenirate, proverite da li ga je neko već skenirao i ne morate gubiti vreme.

2. Opcije skeniranja teksta

Ovde neću govoriti o vašim drajverima za skener, programima koji su sa njim išli, jer su svi modeli skenera različiti, softver je svuda različit i nagađanje i još jasnije pokazivanje kako da se operacija izvede nije realno.

Ali svi skeneri imaju iste postavke koje mogu značajno uticati na brzinu i kvalitet vašeg rada. Ovde ću o njima samo govoriti. Navešću redosled.

1) Kvalitet skeniranja - DPI

Prvo, postavite kvalitet skeniranja u opcijama koje nisu niže od 300 DPI. Preporučljivo je čak staviti i malo više, ako je moguće. Što je viši DPI indikator, jasnija slika će se pojaviti, pa će se daljnja obrada odvijati brže. Pored toga, što je kvalitet skeniranja viši - manje grešaka ćete morati da ispravite kasnije.

Najbolja opcija je, obično 300-400 DPI.

2) kromatičnost

Ovaj parametar uvelike utječe na vrijeme skeniranja (usput, DPI također utječe, ali su tako jake, i to samo kada korisnik postavi visoke vrijednosti).

Obično postoje tri načina:

- crno-bijelo (savršeno za tekst);

- siva (pogodna za tekst sa tabelama i slikama);

- boja (za kolor magazine, knjige, uopšte, dokumente, gde je boja važna).

Obično vreme skeniranja zavisi od izbora boje. Uostalom, ako imate veliki dokument, čak i dodatnih 5-10 sekundi na stranici kao cjelini rezultirat će pristojnim vremenom ...

3) Fotografije

Dokument možete dobiti ne samo skeniranjem, već i njegovim snimanjem. U pravilu, u ovom slučaju imate neke druge probleme: izobličenje slike, zamućenje. Zbog toga može zahtijevati daljnje daljnje uređivanje i obradu primljenog teksta. Ja lično ne preporučujem korišćenje kamera za ovaj posao.

Važno je napomenuti da neće biti priznat svaki takav dokument, jer kvalitet skeniranja može biti izuzetno nizak ...

3. Priznavanje teksta dokumenta

Pretpostavljamo da su skrivene stranice koje ste skenirali primili. Najčešće su to formati: tif, bmb, jpg, png. Generalno, za ABBYY FineReader - ovo nije jako važno ...

Nakon otvaranja slike u programu ABBYY FineReader, program, po pravilu, na uređaju počinje da bira područja i prepoznaje ih. Ali ponekad to čini pogrešno. Za ovo smatramo ručno izbor željenih područja.

Važno je! Ne shvataju svi odmah da je nakon otvaranja dokumenta u programu, izvorni dokument prikazan s lijeve strane u prozoru, u kojem označavate različita područja. Nakon što kliknete na dugme "prepoznavanje", program u prozoru desno će vam doneti gotov tekst. Nakon prepoznavanja, usput rečeno, preporučuje se da proverite tekst na greške u istom FineReaderu.

3.1 Tekst

Ova oblast se koristi za isticanje teksta. Slike i tabele treba isključiti iz njega. Rijetke i neobične fontove morat ćete unijeti ručno ...

Da biste izabrali tekstualnu oblast, obratite pažnju na panel na vrhu FineReader-a. Postoji dugme "T" (pogledajte. Snimak ispod, pokazivač miša je samo na ovom dugmetu). Kliknite na nju, a zatim na slici ispod izaberite uredno pravougaonu oblast u kojoj se nalazi tekst. Usput, u nekim slučajevima morate kreirati tekstualne blokove od 2-3, a ponekad i 10-12 po stranici, jer Formatiranje teksta može biti različito i ne može se odabrati cijelo područje s jednim pravokutnikom.

Važno je napomenuti da slike ne smiju pasti u tekstualno područje! Ubuduće će vam uštedeti mnogo vremena ...

3.2 Slike

Koristi se za isticanje slika i područja koja je teško prepoznati zbog lošeg kvaliteta ili neobičnog fonta.

Na slici ispod, pokazivač miša se nalazi na tasteru koji se koristi za izbor oblasti "slika". Usput, apsolutno bilo koji deo stranice može biti izabran u ovoj oblasti, a FineReader će ga zatim ubaciti u dokument kao normalnu sliku. Ie samo "glupo" će kopirati ...

Obično se ovo područje koristi za isticanje slabo skeniranih tablica, za isticanje nestandardnog teksta i fonta, samih slika.

3.3 Tabele

Na slici ispod prikazano je dugme za označavanje tabela. Generalno, lično ga koristim vrlo rijetko. Činjenica je da morate rutinski crtati (zapravo) svaku liniju na stolu i pokazati šta i kako program. Ako je tablica mala i ne baš dobrog kvaliteta, preporučujem da koristite “sliku” za ove svrhe. Time štedite puno vremena, a onda možete brzo napraviti tablicu u Wordu na osnovu slike.

3.4 Nepotrebne stavke

Važno je napomenuti. Ponekad postoje nepotrebni elementi na stranici koji otežavaju prepoznavanje teksta ili vam ne dozvoljavaju da odaberete željenu oblast. Oni se mogu ukloniti pomoću "gumice".

Da biste to uradili, pređite na režim za uređivanje slika.

Odaberite alat za brisanje i odaberite neželjeno područje. On će biti izbrisan i na njegovo mesto će biti bijeli list papira.

Usput, preporučujem vam da koristite ovu opciju što je češće moguće. Pokušajte sve tekstualne oblasti koje ste odabrali, gdje vam nije potreban dio teksta, ili postoje nepotrebne točke, zamućenost, distorzije - brisanje gumicom. Zahvaljujući ovom priznanju će biti brže!

4. Prepoznavanje PDF / DJVU datoteka

Uopšteno, ovaj format priznanja neće se razlikovati od ostalih - tj. Sa njom možete raditi kao sa slikama. Jedina stvar koju program ne bi trebao biti suviše stara verzija, ako ne otvorite PDF / DJVU datoteke - ažurirajte verziju na 11.

Malo saveta. Nakon otvaranja dokumenta u FineReaderu - automatski će početi da prepoznaje dokument. Često u PDF / DJVU datotekama, određena oblast stranice nije potrebna u cijelom dokumentu! Da biste uklonili takvu oblast na svim stranicama, učinite sljedeće:

1. Idite na odjeljak za uređivanje slika.

2. Omogućite opciju "trimming".

3. Izaberite područje koje vam je potrebno na svim stranicama.

4. Kliknite na "Primijeni" na sve stranice i trim.

5. Pogreška pri provjeri i spremanju rezultata rada

Izgleda da još uvijek postoje problemi kada su sva područja odabrana, a zatim prepoznata - uzmite i sačuvajte ... Nije bilo tamo!

Prvo, moramo proveriti dokument!

Da biste ga omogućili, nakon prepoznavanja, u prozoru desno, pojavit će se gumb "ček", pogledajte sliku ispod. Nakon što kliknete na njega, FineReader program će vam automatski prikazati ona područja u kojima program ima greške i ne može pouzdano odrediti jedan ili drugi simbol. Vi ćete samo morati da izaberete, ili se slažete sa mišljenjem o programu, ili unesite svoj lik.

Inače, u pola slučajeva, program će vam ponuditi gotovu ispravnu riječ - samo trebate pomoću miša odabrati željenu opciju.

Drugo, nakon provjere morate odabrati format u kojem ćete spremiti rezultat vašeg rada.

FineReader vam omogućava da se okrenete u potpunosti: možete jednostavno prenijeti informacije u programu Word jedan na jedan, a možete ih spremiti u jedan od desetaka formata. Ali želim da istaknem još jedan važan aspekt. Koji god format odabrali, važnije je odabrati vrstu kopije! Razmotrite najzanimljivije opcije ...

Tačna kopija

Sva područja koja ste odabrali na stranici u prepoznatom dokumentu će se točno podudarati s izvornim dokumentom. Vrlo zgodna opcija kada je važno da ne izgubite formatiranje teksta. Usput, fontovi će takođe biti veoma slični originalu. Preporučujem sa ovom opcijom da prenesete dokument u Word, da nastavite dalje raditi tamo.

Moguće kopirati

Ova opcija je dobra jer dobijate već formatiranu verziju teksta. Ie Udubljenje "kilometra", koje je možda bilo u originalnom dokumentu - nećete se sresti. Korisna opcija kada ćete značajno izmeniti informacije.

Istina, ne bi trebalo da izaberete da li je važno da sačuvate stil dizajna, fontove, alineje. Ponekad, ako prepoznavanje nije jako uspješno - vaš dokument može "iskriviti" zbog promijenjenog formatiranja. U ovom slučaju, preporučljivo je izabrati tačnu kopiju.

Običan tekst

Opcija za one kojima je potreban samo tekst sa stranice bez svega ostalog. Pogodno za dokumente bez slika i tablica.

Ovim se završava članak skeniranja i prepoznavanja dokumenata. Nadam se da ćete uz pomoć ovih jednostavnih savjeta riješiti svoje probleme ...

Sretno!