PREPOZNAVANJE TEKSTA. BESPLATAN PROGRAM - ANALOGNI FINEREADER

Pre ili kasnije, svi oni koji često rade sa kancelarijskim programima se suočavaju sa tipičnim zadatkom - skenirajte tekst iz knjige, časopisa, novina, jednostavno letaka, a zatim prevedite ove slike u tekstualni format, na primer, u Wordov dokument.

Za to vam je potreban skener i poseban program za prepoznavanje teksta. Ovaj članak će govoriti o besplatnom analognom FineReaderu -Cuneiform (o prepoznavanju u FineReaderu - pogledajte ovaj članak).

Počnimo ...

Sadržaj

1. Značajke programa CuneiForm
2. Primer prepoznavanja teksta
3. Prepoznavanje batch teksta
4. Zaključci

1. Značajke programa CuneiForm

Cuneiform

Možete preuzeti sa sajta programera: //cognitiveforms.com/

Softver za prepoznavanje teksta otvorenog izvora. Osim toga, radi u svim verzijama Windowsa: XP, Vista, 7, 8, što je zadovoljstvo. Plus, dodajte kompletan ruski prevod programa!

Pros:

- prepoznavanje teksta u 20 najpopularnijih jezika svijeta (engleski i ruski jezik je uključen u ovaj broj);

- velika podrška za različite fontove za štampanje;

- proveriti prepoznati tekst u rječniku;

- sposobnost da se rezultati rada sačuvaju na više načina;

- održavanje strukture dokumenta;

- Odlična tabela za podršku i prepoznavanje.

Cons:

- ne podržava prevelike dokumente i datoteke (više od 400 dpi);

- ne podržava neke vrste skenera direktno (dobro, ovo nije zastrašujuće, poseban skener je uključen u upravljačke programe skenera);

- dizajn ne sija (ali kome je potreban program u potpunosti rješava problem).

2. Primer prepoznavanja teksta

Pretpostavljamo da ste već dobili potrebne slike za prepoznavanje (tamo skenirani, ili preuzeli knjigu u pdf / djvu formatu na internetu i dobili potrebne slike od njih. Kako to uraditi - pogledajte ovaj članak).

1) Otvorite željenu sliku u CuineForm programu (file / open ili "Cntrl + O").

2) Za početak prepoznavanja - prvo morate odabrati različita područja: tekst, slike, tablice, itd. U programu Cuneiform, to se može učiniti ne samo ručno, već i automatski! Da biste to uradili, kliknite na dugme "markup" u gornjem oknu prozora.

3) Nakon 10-15 sekundi. program će automatski označiti sva područja različitih boja. Na primer, tekstualna oblast je označena plavom bojom. Usput rečeno, ona je sve oblasti označila ispravno i prilično brzo. Iskreno, nisam očekivao tako brz i tačan odgovor od nje ...

4) Za one koji ne vjeruju automatskom označavanju, možete koristiti ručno. Za to postoji alatna traka (vidi sliku ispod), zahvaljujući kojoj možete odabrati: tekst, tablicu, sliku. Premjestite, povećajte / smanjite početnu sliku, odrežite rubove. U principu, dobar set.

5) Nakon što su sva područja označena, možete nastaviti do prepoznavanje. Da biste to uradili, jednostavno kliknite na dugme istog imena, kao na slici ispod.

6) Doslovno za 10-20 sekundi. Videćete dokument u Microsoft Word-u sa prepoznatim tekstom. Ono što je interesantno, u tekstu za ovaj primer, naravno da je bilo grešaka, ali ih je veoma malo! Posebno, s obzirom na to koliko je originalan materijal bio - slika.

Brzina i kvalitet su prilično uporedivi sa FineReader-om!

3. Prepoznavanje batch teksta

Ova funkcija programa može biti korisna kada trebate prepoznati ne jednu sliku, već nekoliko odjednom. Prečica za pokretanje grupnog prepoznavanja je obično skrivena u početnom izborniku.

1) Nakon otvaranja programa, morate kreirati novi paket ili otvoriti prethodno spremljeni. U našem primjeru - kreirajte novu.

2) U narednom koraku dajemo mu ime, po mogućnosti tako da šest meseci kasnije zapamtimo šta se u njemu nalazi.

3) Zatim odaberite jezik dokumenta (rusko-engleski), naznačite da li u skeniranom materijalu ima slika i tablica.

4) Sada treba da navedete direktorijum u kome se nalaze datoteke za prepoznavanje. Uzgred, zanimljivo je da će sam program pronaći sve slike i druge grafičke datoteke koje može prepoznati i dodati u projekt. Također je potrebno ukloniti dodatak.

5) Sljedeći korak nije važan - odaberite što učiniti s izvornim datotekama, nakon prepoznavanja. Preporučujem da odaberete checkbox "ne radi ništa".

6) Ostaje samo da odaberete format u kojem će se čuvati priznati dokument. Postoji nekoliko opcija:

- rtf - fajl iz Word dokumenta otvaraju sve popularne kancelarije (uključujući i besplatne, link na programe);

- txt - format teksta, u njega možete spremiti samo tekst, slike i tablice;

- htm - Hypertext stranica, pogodna ako skenirate i prepoznajete datoteke za sajt. Njegov i izaberi u našem primjeru.

7) Nakon što kliknete na dugme "Završi", započinje obrada vašeg projekta.

8) Program radi prilično brzo. Nakon prepoznavanja, vidjet ćete karticu s htm datotekama. Ako kliknete na takvu datoteku, pokreće se preglednik gdje možete vidjeti rezultate. Usput, paket se može sačuvati za dalji rad sa njim.

9) Kao što vidite rezultate rad je veoma impresivan. Program je lako prepoznao sliku i lako prepoznao tekst ispod njega. Dok je program besplatan, generalno je super!

4. Zaključci

Ako često ne skenirate i ne prepoznajete dokumente, kupovina FineReader-a vjerojatno nema smisla. CuneiForm lako upravlja većinom zadataka.

S druge strane, ona ima i nedostatke.

Prvo, postoji premalo alata za uređivanje i provjeru rezultata. Drugo, kada morate prepoznati mnogo slika, onda je u FineReaderu prikladnije da odmah vidite sve što se dodaje projektu u koloni desno: brzo uklonite nepotrebno, napravite izmene, itd. morate na um imati dokument - ispravite greške, stavite znakove interpunkcije, citate itd.

To je sve. Znate li neki drugi pristojan softver za prepoznavanje teksta?