СКЕНИРАЊЕ И ПРЕПОЗНАВАЊЕ ТЕКСТ

Send

Добро попладне

Веројатно, секој од нас се соочил со задачата кога требало да се преведе хартиен документ во електронска форма. Ова е особено често неопходно за оние кои учат, работат со документација, преведуваат текстови со употреба на електронски речници, итн.

Во оваа статија, би сакал да споделам некои од основите на овој процес. Во принцип, скенирањето и препознавањето на текстот е одзема многу време, бидејќи повеќето операции ќе треба да се извршат рачно. Willе се обидеме да откриеме што, како и зошто.

Не секој веднаш разбира една работа. По скенирањето (поставување на сите листови на скенерот) ќе имате слики во формат BMP, JPG, PNG, GIF (може да има и други формати). Значи, од оваа слика треба да го добиете текстот - оваа постапка се нарекува признание. Во овој редослед ќе биде изјавата подолу.

Содржина

1. Што е потребно за скенирање и препознавање?
2. Опции за скенирање на текст
3. Признавање на текстот на документот
- 3.1 Текст
- 3,2 слики
- 3.3 Табели
- 3.4 Непотребни предмети
4. Признавање на датотеки PDF / DJVU
5. Проверка на грешки и зачувување на резултатите од работата

1. Што е потребно за скенирање и препознавање?

1) скенер

За да конвертирате печатени документи во текст, прво ви треба скенер и, соодветно на тоа, на "домашните" програми и двигатели што доаѓаа со него. Користејќи ги, можете да скенирате документ и да го зачувате за понатамошна обработка.

Можете да користите други аналози, но софтверот што дојде со скенерот во комплетот обично работи побрзо и има повеќе опции.

Во зависност од тоа каков скенер имате, брзината на работа може значително да варира. Постојат скенери кои можат да добијат слика од лист за 10 секунди, има што ќе ги добиете за 30 секунди. Ако скенирате книга за 200-300 листови - мислам дека не е тешко да се пресмета колку пати ќе има временска разлика?

2) Програма за признавање

Во нашата статија ќе ви ја покажам работата во една од најдобрите програми за скенирање и признавање на апсолутно сите документи - ABBYY FineReader. Затоа што Бидејќи програмата се плаќа, веднаш ќе дадам линк до друг - неговиот бесплатен аналог на формуларот Кунеи. Точно, не би ги споредил, се должи на фактот дека FineReader победи од сите погледи, сепак препорачувам да го испробам.

ABBYY FineReader 11

Официјална веб-страница: //www.abbyy.ru/

Една од најдобрите програми од ваков вид. Тој е дизајниран да го препознае текстот на сликата. Вградени многу опции и функции. Може да анализира еден куп фонтови, дури поддржува и опции со ракопис (иако јас лично не сум го пробал тоа, мислам дека е малку веројатно дека ќе препознае ракописна верзија, освен ако немате совршен калиграфски ракопис). Повеќе детали за работа со тоа ќе бидат опишани подолу. Овде исто така забележуваме дека статијата ќе зборува за работењето во програмата за верзија 11.

Како по правило, различните верзии на ABBYY FineReader не се многу различни едни од други. Можете лесно да го сторите истото во друга. Главните разлики може да бидат во практичноста, брзината на програмата и нејзините можности. На пример, претходните верзии одбиваат да отворат PDF и DJVU ...

3) Документи за скенирање

Да, како тоа, решив да ги направам документите посебна колона. Во повеќето случаи, некои учебници, весници, статии, списанија и сл. Се скенираат. оние книги и литературата што е побарувачка. Што доведувам до тоа? Од лично искуство, можам да кажам дека многу што сакате да го скенирате веројатно веќе се на мрежата! Колку пати лично заштедував време кога најдов одредена книга веќе скенирана на мрежата. Сè што морав да направам беше да го копирам текстот во документот и да продолжам да работам со него.

Од ова, едноставен совет - пред да скенирате нешто, проверете дали некој веќе скенирал и не треба да губите време.

2. Опции за скенирање на текст

Тука нема да зборувам за вашите возачи за скенерот, програмите што се одвиваа со него, затоа што сите модели на скенери се различни, софтверот е исто така различен насекаде, и нереално е да се претпостави како да се изврши операцијата.

Но, сите скенери имаат исти поставки, што во голема мера може да влијае на брзината и квалитетот на вашата работа. Ние само ќе разговараме за нив овде. Listе наведам по ред.

1) Квалитет на скенирање - DPI

Прво, поставете го квалитетот на скенирањето во опциите на најмалку 300 DPI. Дури и препорачливо е да поставите повеќе ако е можно. Колку е повисок индикаторот DPI, толку појасна ќе биде вашата слика и на тој начин, понатамошната обработка ќе биде побрза. Покрај тоа, колку е поголем квалитетот на скенирањето, толку помалку грешки ќе мора да ги исправите подоцна.

Најдобрата опција обично обезбедува 300-400 DPI.

2) боја

Овој параметар многу силно влијае на времето на скенирање (патем, DPI исто така влијае, но тие се толку силни, и само кога корисникот поставува високи вредности).

Обично има три режими:

- црно-бело (совршено за обичен текст);

- сива (погодна за текст со табели и слики);

- боја (за списанија во боја, книги, генерално, документи каде бојата е важна).

Обично, времето за скенирање зависи од изборот на боја. Навистина, ако имате голем документ, тогаш дури и дополнителните 5-10 секунди на страницата како целина ќе се излијат во пристојно време ...

3) Фотографии

Може да добиете документ не само со скенирање, туку и со фотографирање. Како по правило, во овој случај ќе имате некои други проблеми: искривување на сликата, замаглување. Поради ова, може да се бара дополнително уредување и обработка на примениот текст. Лично, јас не препорачувам да користите камери за овој бизнис.

Важно е да се напомене дека не секој таков документ може да се препознае, затоа што квалитетот на скенирањето може да биде исклучително низок ...

3. Признавање на текстот на документот

Претпоставуваме дека сте ги добиле негуваните скенирани страници. Најчесто тие се формати: tif, bmb, jpg, png. Во принцип, за ABBYY FineReader - ова не е многу важно ...

Откако отвори слика во ABBYY FineReader, програмата, по правило, автоматски избира области и ги препознава на машината. Но, понекогаш таа го прави погрешно. За ова, ќе го разгледаме рачно изборот на потребните области.

Важно! Не секој веднаш разбира дека по отворањето на документот во програмата, изворниот документ се прикажува во левиот прозорец, во кој ќе изберете разни области. Откако ќе кликнете на копчето "признавање", програмата во прозорецот од десната страна ќе ви го прикаже готовиот текст. По признавањето, патем, препорачливо е да го проверите текстот за грешки во истиот FineReader.

3.1 Текст

Оваа област се користи за истакнување на текст. Сликите и табелите треба да бидат исклучени од тоа. Ретки и необични фонтови ќе треба да се внесат рачно ...

За да изберете текстуална област, обрнете внимание на панелот на врвот на FineReader. Има копче "Т" (видете го екранот подолу, покажувачот на глувчето е токму на ова копче). Кликнете на неа, а потоа на сликата подолу, изберете ја уредно правоаголната област во која се наоѓа текстот. Патем, во некои случаи треба да создадете текст блокови од 2-3, а понекогаш и 10-12 на страница, затоа што форматирањето на текстот може да биде различно и еден правоаголник не ја избира целата област.

Важно е да се напомене дека сликите не треба да спаѓаат во областа на текстот! Во иднина, ова ќе ви заштеди многу време ...

3,2 слики

Се користат за истакнување на слики и области што е тешко да се препознаат како резултат на лошиот квалитет или необичен фонт.

Во екранот подолу, покажувачот на глувчето се наоѓа на копчето што се користи за да се избере областа „слика“. Патем, во оваа област можете да изберете апсолутно кој било дел од страницата, а FineReader потоа го вметнува во документот како нормална слика. Т.е. само „глупаво“ копирајте…

Обично, оваа област се користи за да се потенцираат слабо скенираните табели, да се потенцираат нестандардни текстови и фонтови, сами по себе слики.

3.3 Табели

Сликата на екранот подолу покажува копче за табели за истакнување. Во принцип, јас лично го користам исклучително ретко. Факт е дека ќе мора прилично рутински да цртате (всушност) секоја линија на табелата и да покажете што и како на програмата. Ако табелата е мала и во не многу добар квалитет, препорачувам да ја користите областа "слика" за овие цели. Така, заштедете многу време, а табелата потоа може брзо да се направи во Word врз основа на сликата.

3.4 Непотребни предмети

Важно е да се напомене. Понекогаш има непотребни елементи на страницата што се мешаат во препознавањето на текстот, па дури и ве спречуваат да ја истакнете саканата област. Може да се отстранат со употреба на гума за бришење.

За да го направите ова, одете во режимот за уредување на слики.

Изберете ја алатката за бришење и одберете ја непотребната област. Willе се избрише и на негово место ќе има бел лист хартија.

Патем, препорачувам да ја користите оваа опција што е можно почесто. Обидете се со сите области што сте ги одбрале, каде што не ви требаат парче текст, или се присутни непотребни точки, замаглување, искривувања - избришете со бришач. Благодарение на ова, признавањето ќе биде побрзо!

4. Признавање на датотеки PDF / DJVU

Во принцип, овој формат на признавање нема да се разликува од останатите - т.е. можете да работите со тоа исто како со слики. Единствено е дека програмата не треба да биде премногу стара ако датотеките PDF / DJVU не се отвораат за вас - надградба на верзијата 11.

Малку совет. По отворањето на документот во FineReader - автоматски ќе започне да го препознава документот. Често во датотеките со PDF / DJVU, одредена област на страницата не е потребна во текот на целиот документ! За да отстраните таква област на сите страници, сторете го следново:

1. Одете во делот за уредување на слики.

2. Вклучете ја опцијата "култура".

3. Изберете ја областа што ја сакате на сите страници.

4. Кликнете се однесува на сите страници и исечете.

5. Проверка на грешки и зачувување на резултатите од работата

Се чини дека сè уште може да има проблеми кога сите области беа обележани, потоа препознаени - земи го и зачувај го ... Таму беше!

Прво, ви треба проверка на документи!

За да го овозможите тоа, по препознавањето, во прозорецот од десно, ќе има копче „проверка“, видете го екранот подолу. Откако ќе ја кликнете, програмата FineReader автоматски ќе ви ги покаже областите каде што програмата има грешки и не беше во можност со сигурност да идентификува одреден карактер. Вие само ќе треба да изберете, или се согласувате со мислењето на програмата, или внесете го вашиот карактер.

Патем, во половина случаи, приближно, програмата ќе ви понуди готов точен збор - само треба да ја изберете потребната опција со глувчето.

Второ, по проверка, треба да изберете формат во кој ќе го зачувате резултатот од вашата работа.

Тука FineReader ви овозможува да се свртите во потполност: можете едноставно да префрлите информации во Word еден до еден, или можете да ги зачувате во една од десетиците формати. Но, би сакал да истакнам уште еден важен аспект. Без оглед кој формат ќе изберете, поважно е да го изберете типот на копија! Разгледајте ги најинтересните опции ...

Точна копија

Сите области што ги истакнавте на страницата во признатиот документ ќе одговараат точно на оригиналниот документ. Многу погодна опција кога е важно за вас да не го изгубите форматирањето на текстот. Патем, фонтовите исто така ќе бидат многу слични на оригиналот. Со оваа опција, препорачувам да го пренесете документот во Word, така што понатаму може да се продолжи работата таму.

Уредливо копирање

Оваа опција е добра со тоа што добивате веќе форматирана верзија на текстот. Т.е. вовлекување со „километар“, што може да се најде во изворниот документ - нема да се сретнете. Корисна опција кога значително ќе ги уредувате информациите.

Точно, не треба да изберете дали е важно за вас да го зачувате стилот на дизајн, фонтови, алинеи. Понекогаш, ако признавањето не е многу успешно, вашиот документ може да „испадне“ заради променето форматирање. Во овој случај, препорачливо е да се избере точната копија.

Обичен текст

Опција за оние на кои им треба само текст од страница без сè друго. Погодно е за документи без слики и табели.

На овој напис за скенирање и признавање на документ дојде до крајот. Се надевам дека со овие едноставни совети ќе можете да ги решите вашите проблеми ...

Среќно

Send