Порано или подоцна, секој што често работи со канцелариски програми се соочува со типична задача - да скенира текст од книга, списание, весник, само летоци, а потоа да ги преведе овие слики во формат на текст, на пример, во документ Word.
За да го направите ова, потребен ви е скенер и специјална програма за препознавање текст. Оваа статија ќе разговара за бесплатниот колега на FineReader -Кунеформ (за признавање во FineReader - видете го овој напис).
Да започнеме ...
Содржина
- 1. Карактеристики на програмата CuneiForm, карактеристики
- 2. Пример за препознавање на текст
- 3. Препознавање текст на серии
- 4. Заклучоци
1. Карактеристики на програмата CuneiForm, карактеристики
Кунеформ
Можете да го преземете од страницата на развивачот: //cognitiveforms.com/
Програма за препознавање текст со отворен извор. Покрај тоа, таа работи во сите верзии на Windows: XP, Vista, 7, 8, што е угодно. Плус, додадете го целиот руски превод на програмата!
Добрите:
- препознавање на текст на 20-те најпопуларни јазици во светот (англискиот и рускиот сам по себе се вклучени во овој број);
- Огромна поддршка за различни фонтови за печатење;
- проверете го речникот на признаен текст;
- можност за зачувување на резултатите од работата на неколку начини;
- зачувување на структурата на документот;
- Голема поддршка и препознавање на табела.
Конс:
- не поддржува премногу големи документи и датотеки (повеќе од 400 dpi);
- Не поддржува директно видови на скенери (добро, тоа не е голема работа, вклучена е специјална програма за скенер со двигателите на скенерот);
- дизајнот не сјае (но кому му е потребен ако програмата целосно го реши проблемот).
2. Пример за препознавање на текст
Претпоставуваме дека веќе сте ги добиле потребните слики за препознавање (скенирани таму, или преземавте книга во формат pdf / djvu на Интернет и ги отстранија потребните слики од нив. Како да го направите ова, видете го овој напис).
1) Отворете ја саканата слика во програмата CuineForm (датотека / отворена или "Cntrl + O").
2) За да започнете со препознавање - прво мора да изберете разни области: текст, слики, табели, итн. Во програмата Cuneiform, ова може да се направи не само рачно, туку и автоматски! За да го направите ова, кликнете на копчето "распоред" во горниот панел на прозорецот.
3) По 10-15 секунди. Програмата автоматски ќе ги истакне сите области со различни бои. На пример, областа за текст е означена со сина боја. Патем, таа ги истакна сите области правилно и прилично брзо. Искрено, не очекував толку брза и точна реакција од неа ...
4) За оние кои не веруваат во автоматскиот изглед, можете да користите прирачник. За да го направите ова, постои лента со алатки (видете ја сликата подолу), благодарение на што можете да изберете: текст, табела, слика. Поместете, зголемете / намалете ја почетната слика, исечете ги рабовите. Во принцип, добар сет.
5) Откако сите области ќе бидат обележани, можеме да продолжиме признавање. За да го направите ова, едноставно кликнете на копчето со истото име, како на сликата подолу.
6) Буквално за 10-20 секунди. Seeе видите документ во Microsoft Word со признат текст. Интересно е што во текстот за овој пример, се разбира, имало грешки, но има многу малку од нив! Покрај тоа, да се размисли за каков непроценлив квалитет беше изворниот материјал - слика.
Брзината и квалитетот се доста споредливи со FineReader!
3. Препознавање текст на серии
Оваа програма може да ви помогне кога треба да препознаете не една слика, туку неколку одеднаш. Кратенката за започнување на препознавање на серија обично се крие во почетното мени.
1) По отворањето на програмата, треба да креирате нов пакет или да отворите претходно зачуван. Во нашиот пример, создадете нова.
2) Во следниот чекор ќе му дадеме име, по можност оној што се сеќава на тоа што се чува во него шест месеци подоцна.
3) Следно, изберете јазик за документи (руски-англиски), означете дали има слики и табели во вашиот скениран материјал.
4) Сега треба да ја наведете папката во која се наоѓаат датотеките за препознавање. Патем, она што е интересно, самата програма ќе ги најде сите слики и други графички датотеки што може да ги препознае и да ги додаде во проектот. Треба само да го отстраните дополнителното.
5) Следниот чекор не е важен - изберете што да направите со изворните датотеки, по признавањето. Препорачувам да го изберете полето за избор "не правете ништо".
6) Останува само да се избере форматот во кој ќе се зачува признатиот документ. Постојат неколку опции:
- ртф - датотека од документ со зборови, отворена од сите популарни канцеларии (вклучително и бесплатни, врска до програми);
- текст - формат на текст, можете да зачувате само текст во него, слики и табели не можат да бидат;
- htm - страница за хипертекст, погодна ако скенирате и препознаете датотеки за страницата. Ние ќе го избереме во нашиот пример.
7) Откако ќе кликнете на копчето "Заврши", ќе започне процесот на обработка на вашиот проект.
8) Програмата работи прилично брзо. По препознавањето, пред вас ќе се појави јазиче со htm-датотеки. Ако кликнете на таква датотека, започнува прелистувач, каде што можете да ги видите резултатите. Патем, пакетот може да се спаси за понатамошна работа со него.
9) Како што можете да видите, резултатите работата е многу импресивна. Програмата лесно ја препознаваше сликата, а под неа текстот лесно се препознаваше. И покрај фактот дека програмата е бесплатна, генерално е супер!
4. Заклучоци
Ако често не скенирате и препознаете документи, тогаш купувањето на програмата FineReader веројатно нема смисла. Повеќето задачи лесно се ракуваат со CuneiForm.
Од друга страна, таа има и недостатоци.
Прво, има премногу малку алатки за уредување и проверка на резултатот. Второ, кога треба да препознаете многу слики, поудобно е во FineReader веднаш да видите сè што е додадено на проектот во колоната од десната страна: брзо да ги отстраните непотребните, да направите корекции, итн. И трето, CuneiForm губи како признание на документи: Морам да го доведам документот на ум - да ги менувам грешките, да ставам интерпункциски знаци, наводници итн.
Сето тоа е Дали знаете некоја друга достојна бесплатна програма за препознавање текст?