Препознајте го текстот во датотека PDF преку Интернет

Pin
Send
Share
Send


Далеку е од секогаш можно да се извлече текст од PDF-датотека со користење на редовно копирање. Честопати страниците на таквите документи се скенирани содржини на нивните верзии во хартија. За да ги конвертирате таквите датотеки во целосно уредливи податоци за текст, се користат специјални програми со функцијата Оптички препознавање на знаци (OCR).

Ваквите одлуки се многу тешки за спроведување и, според тоа, чинат многу пари. Доколку треба редовно да препознавате текст од PDF, препорачливо е да купите соодветна програма. За ретки случаи, ќе биде логично да се користи една од достапните мрежни услуги со слични функции.

Како да препознаете текст од PDF преку Интернет

Се разбира, опсегот на OCR-услугите за онлајн услуги, во споредба со полноправните решенија за десктоп, е по ограничен. Но, исто така можете да работите со такви ресурси или бесплатно или за номинален надомест. Главната работа е дека со нивната главна задача, имено со препознавање текст, соодветните веб-апликации се справат исто така.

Метод 1: ABBYY FineReader на Интернет

Компанијата за развој на услуги е еден од лидерите во областа на препознавање на оптички документи. ABBYY FineReader за Windows и Mac е моќно решение за конвертирање на PDF во текст и понатамошна работа со него.

Интернет-аналогот на програмата, се разбира, е инфериорен во однос на него во функционалност. Како и да е, услугата може да препознае текст од скенирања и фотографии на повеќе од 190 јазици. Поддржани се PDF-датотеки во Word, Excel, итн.

ABBYY FineReader Online Online услуга

  1. Пред да започнете да работите со алатката, креирајте сметка на страницата или најавете се со сметки на Facebook, Google или Microsoft.

    За да отидете во прозорецот за овластување, кликнете на копчето „Влез“ во горната лента со мени.
  2. Откако ќе се најавите, внесете го саканиот PDF-документ во FineReader со копчето „Поставете датотеки“.

    Потоа кликнете "Изберете броеви на страници" и наведете го саканиот интервал за препознавање текст.
  3. Следно, изберете ги јазиците присутни во документот, форматот на добиената датотека и кликнете на копчето „Препознајте“.
  4. По обработката, чие времетраење зависи целосно од обемот на документот, можете да ја преземете готовата датотека со текстуални податоци, едноставно со кликнување на неговото име.

    Или, извезете го на една од достапните услуги за облак.

Услугата веројатно се одликува со најточните алгоритми за препознавање текст на слики и PDF-датотеки. Но, за жал, неговата бесплатна употреба е ограничена на пет страници обработени месечно. За да работите со повеќе обемни документи, ќе мора да купите годишна претплата.

Меѓутоа, ако OCR е ретко потребен, ABBYY FineReader Online е одлична опција за вадење текст од мали PDF датотеки.

Метод 2: Бесплатни онлајн OCR

Едноставна и удобна услуга за дигитализација на текстот. Без регистрација, ресурсот ви овозможува да препознаете 15 целосни PDF страници на час. Бесплатни онлајн OCR целосно работи со документи на 46 јазици и без овластување поддржува три формати за извоз на текст - DOCX, XLSX и TXT.

При регистрација, корисникот добива можност да обработува документи со повеќе страници, но бесплатниот број на истите овие страници е ограничен на 50 единици.

Бесплатни онлајн услуга за OCR

  1. За да го препознаете текстот од PDF како „гостин“, без овластување за изворот, користете соодветна форма на главната страница на страницата.

    Изберете го саканиот документ со помош на копчето Датотека, наведете го главниот јазик на текстот, формат на излез, а потоа почекајте да се вчита датотеката и кликнете Конвертирај.
  2. На крајот на процесот на дигитализација, кликнете на "Преземете ја излезната датотека" да го зачувате готовиот документ со текст на компјутерот.

За овластените корисници, низата активности е малку поинаква.

  1. Користете го копчето "Регистрација" или „Влез“ во горната лента со мени за, соодветно, да креирате бесплатна OCR сметка на Интернет или да се најавите на истата.
  2. По овластување во панелот за препознавање, држете го копчето CTRLизберете од двата јазика на изворниот документ од дадената листа.
  3. Наведете дополнителни опции за вадење текст од PDF и кликнете Изберете датотека за да испратите документ во услугата.

    Потоа, за да започнете со препознавање, кликнете на Конвертирај.
  4. На крајот на обработката на документот, кликнете на врската со името на излезната датотека во соодветната колона.

    Резултатот од признавање ќе биде зачуван веднаш во меморијата на вашиот компјутер.

Ако треба да извлечете текст од мал PDF-документ, можете безбедно да се прибегнете кон користење на горенаведената алатка. За да работите со обемни датотеки, ќе мора да купите дополнителни знаци во Free Online OCR или да користите друго решение.

Метод 3: NewOCR

Комплетно бесплатна OCR-услуга која ви овозможува да извлечете текст од скоро сите графички и електронски документи како DjVu и PDF. Изворот не наметнува ограничувања на големината и бројот на признати датотеки, не бара регистрација и нуди широк спектар на поврзани функции.

NewOCR поддржува 106 јазици и може правилно да процесира дури и скенирања за документи со низок квалитет. Можно е рачно да ја изберете областа за препознавање текст на страницата со датотеки.

Нова услуга на Новокрад

  1. Значи, можете да започнете да работите со ресурс веднаш, без потреба да извршите непотребни активности.

    Право на главната страница има формулар за увоз на документ на страницата. За да испратите датотека во NewOCR, користете го копчето "Избери датотека" во делот "Изберете ја вашата датотека". Потоа на полето "Јазик (и) за признавање" наведете еден или повеќе јазици на изворниот документ, а потоа кликнете "Поставете + OCR".
  2. Поставете ги претпочитаните поставки за препознавање, изберете ја страницата од која сакате да извлечете текст и кликнете на копчето OCR.
  3. Движете се надолу по страната и пронајдете го копчето "Преземи".

    Кликнете на неа и во паѓачката листа изберете го потребниот формат на документи за преземање. После тоа, готовата датотека со извлечениот текст ќе биде преземена на вашиот компјутер.

Алатката е удобна и прилично висок квалитет ги препознава сите карактери. Сепак, обработката на секоја страница од увезениот PDF документ мора да започне самостојно и истата се прикажува во посебна датотека. Секако, можете веднаш да ги копирате резултатите од признавањето во таблата со исечоци и да ги комбинирате со другите.

Како и да е, имајќи ја предвид нијансата опишана погоре, многу е тешко да се извлечат големи количини на текст користејќи го NewOCR. Со мали датотеки, услугата се справува со тресок.

Метод 4: OCR.Space

Едноставен и разбирлив ресурс за дигитализација на текстот, ви овозможува да препознаете PDF документи и да го испорачате резултатот во датотека TXT. Не се предвидени ограничувања за бројот на страници. Единствено ограничување е дека големината на влезниот документ не треба да надминува 5 мегабајти.

OCR.Прослуга преку Интернет

  1. Регистрирај се да работите со алатката не е потребно.

    Само следете ја врската погоре и поставете го PDF-документот на веб-страницата од компјутерот со помош на копчето "Избери датотека" или од мрежата - по препорака.
  2. Во паѓачката листа "Изберете јазик за OCR" Изберете го јазикот на увезениот документ.

    Потоа започнете го процесот на препознавање текст со кликнување на копчето "Започнете со ОЦР!".
  3. На крајот на обработката на датотеката, прочитајте го резултатот во полето Резултат на OCR и кликнете "Преземи"за да го преземете готовиот документ TXT.

Ако само треба да го извадите текстот од PDF и во исто време неговото конечно форматирање не е воопшто важно, OCR.Space е добар избор. Единствено е што документот треба да биде „еднојазичен“, бидејќи признавањето на два или повеќе јазици во исто време не е предвидено во службата.

Погледнете исто така: Бесплатни аналози на FineReader

Оценувајќи ги онлајн алатките презентирани во статијата, треба да се напомене дека FineReader Online од ABBYY се справува со функцијата OCR најточно и поефикасно. Ако максималната точност на препознавањето на текстот е важна за вас, најдобро е да ја разгледате оваа опција специјално. Но, најверојатно, исто така ќе мора да платите за тоа.

Ако треба да дигитализирате мали документи и подготвени сте самостојно да ги поправите грешките во услугата, препорачливо е да користите NewOCR, OCR.Space или Free Online OCR.

Pin
Send
Share
Send