Содержание
- 1 Знакомство с OCR библиотекой tessnet2 (язык C#)
- 2 Search Results for IRIS OCR Server
- 3 Программы OCR: распознавание текста, списки, разработчики, вес программы, выполняемые функции, характеристики, особенности работы и отзывы пользователей
- 3.1 Что такое OCR-программы и как они работают
- 3.2 ABBYY FineReader 14
- 3.3 Мнение пользователей о FineReader 14
- 3.4 OmniPage 18
- 3.5 Мнение пользователей об OmniPage
- 3.6 Read Iris Pro 17
- 3.7 Мнение пользователей о ReadIris
- 3.8 Samsung Scan OCR Program – что это за программа?
- 3.9 Онлайн-сервисы
- 3.10 Мнение пользователей об онлайн-OCR-сервисах
- 4 OCR — технология распознавания сканированного текста, программы и онлайн инструменты
- 5 Blogerator.org
Знакомство с OCR библиотекой tessnet2 (язык C#)
Буквально на днях у меня появилась необходимость распознать простой текст на картинке и совсем не было желания реализовывать свой алгоритм, т.к.
знаком с теорией и знаю, что это не такое простое дело, поэтому сразу решил изучить сначала рынок готовых библиотек. Буквально несколько запросов в гугл и я понял, что ничего более подходящего мне как библиотека tessnet2 невозможно найти.
Постоянно читаю хабр и знаю, что тут есть уйма статей посвященных теории OCR и очень удивился, что нет ничего о библиотеке tessnet2.
tessnet2 основана на Tesseract OCR
Движок Tesseract OCR был одним из 3-х лучших движков представленных в 1995 году на UNLV Accuracy test.
В период между 1995 годом и 2006 годом он был немного доработан, но, вероятно, это один из наиболее точных OCR движков, который доступен с открытым исходным кодом. Код, который доступен будет читать бинарные, серые или цветное изображение и выводить текст.
Чтение TIFF построено так, что будут читаться несжатые TIFF изображения или могут быть добавлены Libtiff для чтения сжатых изображений.
Как использовать Tessnet2:
1. Загружаем библиотеку, добавляем ссылку (reference) на Tessnet2.dll в .NET проекте.
2. Загружаем нужный нам язык (лично мне необходим английский) (tesseract-2.00.eng.tar.gz) и складываем в папку tessdata. Папка tessdata обязательно должна быть рядом с исполняемым файлом нашего приложения. Для того, чтобы прочитать текст с картинки достаточно такого текста: Bitmap image = new Bitmap(«eurotext.tif»);
tessnet2.Tesseract ocr = new tessnet2.Tesseract();
ocr.SetVariable(«tessedit_char_whitelist», «0123456789»); // If digit only
ocr.Init(@»c:\temp», » eng «, false); // To use correct tessdata
List result = ocr.DoOCR(image, Rectangle.Empty);
foreach (tessnet2.Word word in result)
Console.WriteLine(«{0} : {1}», word.Confidence, word.Text);
* This source code was highlighted with Source Code Highlighter.
Я был очень рад результату, поэтому сразу вспомнил о том, что несколько месяцев назад прикручивал сервис для разгадывания каптч для одного проекта, сразу скажу, что ничего хорошего из этого не вышло, там нужна была скорость, но её не удалось там получить, т.к. подобные сервисы не способны её обеспечить, да и результат как правило плачевный, оно и понятно, т.к. платят там от 1 доллара за 1000 правильно введённых каптч, что мягко сказать ужасно. Поэтому эксперимента ради я решил поиграть с данной библиотекой на том примере. Исходными данными для нас будет являться каптча, на которой нужно произвести простейшие действия над двумя числами и получить ответ. Звучит довольно просто, но вот проблема ещё в том, что все символы разных цветов и имеется динамический фон, порой даже мне (человеку) сложно понять сходу, что там написано. Сразу привожу результаты работы программы, после чего я расскажу как это всё работает: На скриншотах чётко видно, что библиотека не может ничего разгадать из-за кучи линий, порой мешает и фон, который был убран не целиком. Поэтому я разработал свой небольшой алгоритм для чистки картинки, ничего в нём грандиозного нет, я просто отступаю несколько пикселей от края и пробегаю по прямоугольнику и собираю там цвета, также собираю цвета после первой цифры и перед знаком равно (последнее это больше хак, но т.к. статья посвящена другому, то оставил так). Всё что мне надо сделать потом – это закрасить все цвета, которые попали ко мне в коллекцию и не являются белым цветом. Из всех алгоритмов наиболее полезным может быть только алгоритм закрашивания области на Bitmap`е: void FloodFill(Bitmap bitmap, int x, int y, Color color) { BitmapData data = bitmap.LockBits(
new Rectangle(0, 0, bitmap.Width, bitmap.Height),
ImageLockMode.ReadWrite, PixelFormat.Format32bppArgb);
int[] bits = new int[data.Stride / 4 * data.Height];
Marshal.Copy(data.Scan0, bits, 0, bits.Length);
LinkedList check = new LinkedList();
int floodTo = color.ToArgb();
int floodFrom = bits[x + y * data.Stride / 4]; bits[x + y * data.Stride / 4] = floodTo;
if (floodFrom != floodTo)
{
check.AddLast(new Point(x, y));
while (check.Count > 0) { Point cur = check.First.Value; check.RemoveFirst();
foreach (Point off in new Point[] {
new Point(0, -1), new Point(0, 1),
new Point(-1, 0), new Point(1, 0)}) {
Point next = new Point(cur.X + off.X, cur.Y + off.Y);
if (next.X >= 0 && next.Y >= 0 && next.X < data.Width && next.Y < data.Height) {
if (bits[next.X + next.Y * data.Stride / 4] == floodFrom)
{ check.AddLast(next); bits[next.X + next.Y * data.Stride / 4] = floodTo; } } } } } Marshal.Copy(bits, 0, data.Scan0, bits.Length); bitmap.UnlockBits(data); }
}
* This source code was highlighted with Source Code Highlighter.
Для тех кому интересно самому поэкспериментировать прикрепляю исходный код.
Итог
Мы познакомились с довольно интересной библиотекой tessnet2, проверили её работу в реальных условиях, добились довольно неплохих результатов разгадывания для сложных картинок (каптч), конечно ошибки есть, но их количество ничтожно мало, тем более для данного вида каптч можно добавить проверку с помощью регулярного выражения и Вы точно будете знать, что разгаданный текст соответствует нужному формату.
Источник: https://habr.com/post/112599/
Search Results for IRIS OCR Server
This page was designed to help you find IRIS OCR Server quickly and easily. Click Here to find IRIS OCR Server.
On-Site Support Available for much of the Eastern US
Online support available worldwide!
We will perform on-site installation and training services at any location within a 3 hour drive of one of our offices without charging extra for airfare. However, our extensive online support options make on-site visits unnecessary for many applications.
From our headquarters in Knoxville, TN we are able to provide on-site service and support for East Tennessee (Knoxville, Oak Ridge, Maryville, Alcoa, Chattanooga, Nashville, Tri-Cities, Kingsport, TN), Western North Carolina (Asheville, Charlotte, Winston-Salem, Raleigh, Durham, NC), North Georgia (Atlanta, Athens, Augusta, GA), Western South Carolina (Greenville, Spartanburg, Columbia), North Alabama (Birmingham, Huntsville, AL), Eastern Kentucky (Louisville, Lexington, Georgetown, KY) Southern Ohio (Cincinnati, OH), and Southern Virginia (Bristol, Roanoke, Richmond, VA).
From our branch office in Boston we are able to provide on-site service and support for Massachusetts (Boston, Worcester, Springfield, MA), Rhode Island (Providence, Newport, RI), Connecticut (Hartford, New Haven, Bridgeport, Danbury, CT), Southern New Hampshire (Nashua, Manchester, NH), Eastern New York (New York City (NYC), Yonkers, Long Island, Albany, NY), New Jersey (Newark, Trenton, NJ) and Eastern Pennsylvania (Philadelphia, Allentown, Scranton, Wilkes-Barre, PA).
Click Here to find IRIS OCR Server
Current Category:
Scanning, Document Imaging, Software, OCR Software, IRIS
Other Items in This Category:
IRIS Document Server, IRIS OCR Software, IRIS PDF OCR Server, IRIS PDF Server, IRIS ReadIRIS Pro 12 Corporate Edition, IRIS ReadIRIS Pro 12 Corporate Edition, IRIS ReadIRIS Pro Arabic OCR, IRIS ReadIRIS Pro Asian Windows OCR, IRIS ReadIRIS Pro Corporate Edition, IRIS ReadIRIS Pro Corporate Edition, IRIS ReadIRIS Pro Corporate Edition, IRIS ReadIRIS Pro Mac OCR Download, IRIS ReadIRIS Pro Windows, IRIS ReadIRIS Pro Windows OCR Download, IRISPdf Download, IRISPdf Server, ReadIRIS, ReadIRIS Mac OCR, ReadIRIS Pro, ReadIRIS Pro Arabic OCR Software
Pages related to IRIS OCR Server:
Invoice_Processing — Accounts Payable OCR, Invoice OCR, OCR Invoice Processing, OCR Invoice Scanning, OCR Invoices, Payables OCR, Mortgage_Document_Management — loan OCR, Knoxville_Tennessee_TN — Knoxville OCR, Scanning Services — OCR services, ABBYY_Add-On_Modules — ABBYY OCR Recognition Server, ABBYY OCR Software, ABBYY Recognition Server Chinese OCR, ABBYY Recognition Server Chinese, Japanese, ABBYY Recognition Server Hebrew OCR, ABBYY Recognition Server Japanese OCR, ABBYY Recognition Server Korean OCR, ABBYY Recognition Server OCR, ABBYY Recognition Server OCR for Chinese,, ABBYY Recognition Server OCR Hebrew, ABBYY Recognition Server Verification, ABBYY Recognition Server XML Export, ABBYY XML OCR Server, Recognition Server OCR XML, Recognition Server XML, Digitech_Add-On_Modules — Digitech Extended OCR, IRIS_Add-On_Modules — IRIS IHQC High Compression PDF for, IRIS IHQC PDF Compression, IRIS IRISCapture for Forms ICR Software, IRIS IRISCapture Voting OCR & Line, IRIS IRISDocument Server Arabic Language, IRIS IRISDocument Server Multi-CPU, IRIS Powerscan Chinese Japanese Korean, IRISCapture Accounts Payable Invoice, IRISDocument IHQC High Compression, IRISDocument SharePoint Document OCR, IRISPdf Server Asian Language, APIs_and_Toolkits — ocr activex, OCR API, ocr develop, ocr developers, ocr development, ocr engine, ocr integration, ocr toolkit, simple ocr api, ScanStore SimpleOCR SDK — royalty free ocr, royalty free ocr activex, royalty free ocr api, royalty free ocr engine, Simple Royalty Free OCR SDK, Batch_Scanning — zone ocr software, ScanStore SimpleIndex Scanning Software — Simple Barcode OCR Scanning, Digitech_Document_Scanning — Digitech PaperFlow OCR Barcode, Digitech PaperVision Capture OCR (Named, PaperFlow Standard — OCR & Barcode, IRIS_Document_Scanning — IRIS IRISCapture for Sort & Index -, IRISPowerscan High Speed Desktop Scanning, Form_&_Survey_Processing — ocr for form, ocr form processing, IRIS_Forms_Processing — IRIS Capture Invoice Processing Software, IRIS IRISCapture for Forms Survey &, IRIS IRISCapture for Invoice OCR, IRIS IRISCapture MS Dynamics NAV Invoice, IRISCapture Accounts Payable Invoice, ICR_Forms_Processing — ocr forms processing, ocr icr software, ABBYY_Maintenance_Contract — ABBYY Server OCR, OCR_Software — activex ocr, best ocr, best ocr software, Document OCR, ocr optical character recognition, ocr programs, OCR Scanner, ocr scanner software, OCR scanning, ocr scanning software, ocr software comparison, ocr software for mac, ocr software reviews, OCR to HTML, OCR to Word, pdf ocr software, ABBYY_OCR_Software — ABBYY Fine Reader OCR, ABBYY FineReader OCR, ABBYY OCR Server, ABBYY Recognition Server, ABBYY Recognition Server CPU License, ABBYY Recognition Server Enterprise, ABBYY Recognition Server Unlimited, ABBYY Recognition Server Web Services, FineReader OCR, Recognition Server, Recognition Server Download, Digitech_Systems_OCR — Digitech Systems OCRFlow, IRIS_OCR_Software — IRIS Document Server, IRIS OCR Software, IRIS PDF OCR Server, IRIS PDF Server, IRIS ReadIRIS Pro 12 Corporate Edition, IRIS ReadIRIS Pro 12 Corporate Edition, IRIS ReadIRIS Pro Arabic OCR, IRIS ReadIRIS Pro Asian Windows OCR, IRIS ReadIRIS Pro Corporate Edition, IRIS ReadIRIS Pro Corporate Edition, IRIS ReadIRIS Pro Corporate Edition, IRIS ReadIRIS Pro Mac OCR Download, IRIS ReadIRIS Pro Windows, IRIS ReadIRIS Pro Windows OCR Download, IRISPdf Download, IRISPdf Server, ReadIRIS, ReadIRIS Mac OCR, ReadIRIS Pro, ReadIRIS Pro Arabic OCR Software, Nuance_OCR_Software — OmniPage OCR, OmniPage OCR Software, OmniPage Pro OCR Software, OmniPage Professional OCR Software, ScanStore SimpleOCR Software — API Free OCR, API OCR, SimpleOCR Command-line OCR, Simple_Software_SimpleOCR_Command-line — Command Line OCR, Nuance_PDF_Conversion — Nuance OCR Software, Simple OCR SDK — Simple OCR Source Code for Students, SimpleOCR Royalty Free OCR SDK, SimpleOCR SDK, Scanning_OCR_Consulting_Services — OCR Consulting, OCR Programming
Meta Enterprises, LLC — Knoxville, TN
IRIS OCR Server at ScanStore.com
Freeware OCR Software and Royalty Free OCR SDK
IRIS OCR Server at SimpleOCR.
com
Document Scanning, OCR and Barcode Recognition Software
IRIS OCR Server at SimpleIndex.
com
Mortgage Document Scanning and OCR
Find Pipettors and Pipette Tips
Программы OCR: распознавание текста, списки, разработчики, вес программы, выполняемые функции, характеристики, особенности работы и отзывы пользователей
Бумага как основной носитель информации, постепенно утрачивает свое значение. Вместо бумажных документов используют их электронный вариант, если это возможно. Но как перевести в электронный вид имеющиеся архивы? Для решения этой задачи были созданы специальные программы для распознавания текста.
Что такое OCR-программы и как они работают
Эти программные продукты, использующие технологию ORC (Optical character recognition) или ICR (Intelligence character recognition). На русский язык эти аббревиатуры переводятся как «оптическое» или «интеллектуальное распознавание символов».
Программы, использующие OCR, работают следующим образом. Фотография с текстом, полученная от сканера, разбивается на множество фрагментов. Для каждого из них приложение создает несколько предположений.
Проверяя их и сравнивая с эталонами, каждому фрагменту дает оценку, соответствующую степени совпадения.
Выбирая наибольшую из них, программа «видит» символ и выводит его в поле встроенного текстового редактора.
IRC работает по тому же принципу, но для обработки символов используются искусственные нейронные сети.
Главное преимущество этого способа – компактность программ и непрерывное обучение. Это позволяет эффективно распознавать слова, написанные человеком рукописными буквами.
Но эта технология не способна «прочесть» сплошной рукописный текст.
Для каждой из существующих операционных систем разработаны собственные OCR-программы. Наиболее популярными для работы в ОС Windows являются:
- ABBYY FineReader;
- OmniPage;
- Readiris;
- Samsung Scan OCR Program;
Кроме программ для ПК доступно много онлайн-сервисов по распознаванию текста. Среди них наиболее известны FineReader Online, OnlineOCR, FreeOCR.
ABBYY FineReader 14
Этот программный продукт разработан отечественной компанией ABBYY, является одной из лучших среди программ, использующих OCR. Основу программы составляет оригинальный движок под названием Finereader Engine. Он предоставляет следующие возможности:
- Быстрое распознавание печатного текста с точностью выше 98 %. Невосприимчивость к качеству исходного изображения. Это позволяет одинаково распознавать текст на фотографиях, полученных при помощи сканера или фотоаппарата.
- Технология ADRT позволяет распознавать не только текст, но и его форматирование: шрифт, отступы, абзацы, колонки.
- Возможность многопоточной обработки изображения. Это позволяет задействовать все ядра процессора (максимум 4) для ускорения процесса распознавания.
- Поддержка более 190 языков, включая те, которые используют алфавит, отличный от латиницы или кириллицы (японский, китайский, арабский).
- Встроенный текстовый редактор позволяет проверить результат распознавания или отредактировать его.
- Взаимодействие с пакетом Office. Оно позволяет экспортировать распознанный текст в Microsoft Word и Exel для дальнейшей обработки.
- Возможность обучения программы. Эта функция позволяет обучить программу «читать» специфические начертания букв. Например, нестандартный шрифт или печатные буквы, написанные рукой.
- Работа с PDF. FineReader позволяет распознавать текст из этого типа файлов и «сшивать» несколько отсканированных изображений в PDF или PDF/A.
Главный недостаток этой программы – цена. Бессрочная лицензия для базовой версии обойдется в 7 тысяч рублей.
Версии «Бизнес» и «Энтерпрайз» – в 12 и 39 тысяч рублей, соответственно.
Если же предполагается использовать программу только дома, то можно скачать с торрент-трекера взломанную 11-ю или 12-ю версию продукта.
Системные требования:
- Процессор: 32- или 64-битный, с тактовой частотой более 1 ГГц и поддержкой набора инструкций SSE 2. (Intel Celeron M и лучше, AMD Athlon 64 и лучше).
- Оперативная память: 1 ГБ. Если процессор имеет более 1 ядра, то для каждого дополнительно требуется 512 МБ.
- карта: любая, поддерживающая разрешение 1024 х 800.
- Жесткий диск: 3 ГБ – для установки и работы.
- Сканер: поддерживающий драйверы TWAIN и WIA.
- ОС: Windows 7,8,8.1,10.
Мнение пользователей о FineReader 14
Они отзываются о FineReader положительно, выделяя среди достоинств способность продукта распознавать текст с плохих бумажных оригиналов, удобный и простой интерфейс и высокую скорость обработки изображений.
Среди проблем, возникающих при использовании этой OCR-программы, некоторые юзеры отмечают некорректно работающий менеджер изображений. Например: неадекватная работа регулировки яркости отсканированного изображения.
OmniPage 18
Основной конкурент FineReader на российском рынке ORC-программ. По функционалу она очень похожа на оппонента, но имеет несколько отличий:
- Возможность запуска процесса сканирования и распознавания при помощи кнопок сканера.
- Поддержка 4-ядерных процессоров. Это позволяет уменьшить время распознавания и преобразовывать несколько изображений одновременно.
- Создание собственной электронной библиотеки для букридера (электронной книги) Kindle.
- Автоматическое определение распознаваемого языка.
Среди недостатков программы можно отметить низкую скорость работы, сравнимую с 10-й версией FineReader, и цену за лицензионную копию – 150 долларов.
Системные требования:
- Процессор: x32- или x64-битный, с тактовой частотой более 1 ГГц, Intel Pentium и лучше, AMD Athlon и лучше.
- Оперативная память: 512 МБ.
- карта: любая, поддерживающая разрешение 1024 х 800 и глубину цвета 16 бит.
- Жесткий диск: 1,1 ГБ для установки всех компонентов и 100 МБ для работы.
- Сканер: поддерживающий драйверы TWAIN,WIA и ISIS.
- ОС: Windows XP SP3,Vista SP2 x32/x64, 7,8.
Мнение пользователей об OmniPage
Отзываются они о ней резко негативно, т.к. проблемы есть во всех частях программы, начиная от красивого, но непонятного интерфейса, и заканчивая плохой справочной информацией. Продукт не адаптирован к работе в WinXP. Его можно заставить работать, но придется потратить какое-то время.
OmniPage имеет проблемы с распознаванием. Например: он легко распознает простой черный текст на листе бумаги с рисунками или таблицами, полученный со сканера.
При использовании изображений с фотоаппарата или мобильного телефона точность распознавания падает до 70 %, а это очень неудобно при обработке больших документов.
Также 18-я версия может не запуститься из-за ошибок в коде. Для устранения этой проблемы нужно установить патч 18.01.
Read Iris Pro 17
Read Iris — это OCR-программа, что за меньшие деньги (8000 против 12 000) способна сравниться по функционалу и производительности с FineReader. Профессиональная версия обладает следующими возможностями:
- Полноценная работа с PDF: распознавание, создание файлов для баз данных, сжатие и озвучивание текста.
- Поддержка 140 языков.
- Распознавание бумажных таблиц и текстов с возможностью экспорта в Exel и Word.
- Получение изображений с любой модели сканера.
Также существует корпоративная версия, позволяющая защищать PDF-файлы водяными знаками и работать с документами объемом более 50 страниц.
Системные требования:
- Процессор: x86 или x64, с тактовой частотой 1 ГГц или выше.
- Оперативная память: 1 ГБ.
- карта: любая, поддерживающая разрешение 1024 х 800.
- Жесткий диск:400 МБ для установки.
- Сканер: поддерживающий драйверы TWAIN,WIA.
- ОС: Windows 7,8,10 x32/x64.
Мнение пользователей о ReadIris
Они отзываются об этой OCR-программе распознавания текста как о хорошем и быстром PDF to Word конвертере с рядом проблем:
- Сложный интерфейс, в котором новичку нелегко разобраться.
- Автоматическое пересканирование документа при изменении области сканирования.
- Плохая техническая поддержка.
- Иногда программа не активируется из-за ошибок в коде программы.
Samsung Scan OCR Program – что это за программа?
Это бесплатное программное обеспечение, входящее в комплектацию многофункциональных устройств «3 в 1» (принтер, сканер, копир) от компании «Самсунг».
Оно разработано в сотрудничестве с компанией Iris, создавшей ReadIris Pro, и оптимизировано для работы с МФУ этого производителя.
От оригинального «Ридирис» Samsung Scan ORC отличается интерфейсом, урезанным функционалом и размерами – на жестком диске она занимает 40 МБ.
MSDN — что это? Описание ресурса
Онлайн-сервисы
Они являются альтернативой ресурсоемким стационарным программам для распознавания текста. Например, OCR программе FineReader.
Свойства систем подобных проектов позволяют распознавать текст с изображений намного быстрее, чем на автономном ПК.
Среди сервисов, занимающихся извлечением текста из фотографий, можно выделить 3 наиболее удобных: FineReaderOnline, FreeOCR, OnlineOCR.
Первый является прямым развитием стационарной версии продукта. При регистрации новому пользователю дается 10 бесплатных страниц для обработки и 5 каждый месяц. Снять это ограничение можно, купив годовую подписку за 3200, 5500, 17800 рублей за 2000, 5000 и 10000 страниц соответственно.
Если у пользователя есть лицензия для FineReader 14, то ему достаточно зарегистрироваться и активировать ее для использования в онлайн-версии.
В этом случае он получит количество страниц, соответствующее типу приобретенной лицензии: «Стандарт» (2000), «Бизнес» (5000) или «Энтерпрайз» (10000).
Сервис OnlineOCR.com позволяет преобразовывать 15 изображений/час (ограничение для незарегистрированных пользователей) в текст и сохранять их в виде файлов .docx, .xlsx или .txt. После регистрации становится доступным:
- Сохранение в .pdf, .doc, .xlx, .rtf.
- Преобразование многостраничных PDF-файлов.
- Количество страниц увеличивается до 50.
Если страниц недостаточно, то их можно приобрести в количестве 50-50 000 штук.
Проект FreeOCR.com отличается от предыдущего своей полной бесплатностью и отсутствием ограничений на количество обрабатываемых страниц. OCR-движок этого сайта поддерживает русский, украинский, турецкий, вьетнамский и все европейские языки – всего 29.
Единственным недостатком этого портала является работа только с графическими изображениями, загружаемых последовательно, так как очередь обработки не предусмотрена создателями. Выводится распознанная информация без какого-либо форматирования в формате TXT.
Мнение пользователей об онлайн-OCR-сервисах
Эти сайты необходимы в тех случаях, когда загрузка и установка полноценной ORC-программы нецелесообразна. Например, для вставки в реферат нескольких объемных цитат из книги или журнала. Среди недостатков таких сайтов выделяют условную бесплатность (FineReader) и слабый функционал (FreeOCR,OnlineOCR).
Подводя итог, можно сказать, что OCR-программ распознавания текста с изображением или PDF-файлов создано немало, а в статье приведены лишь самые известные.
Поэтому OCR-программу для сканера каждый пользователь сможет себе подобрать в соответствии с требованиями и бюджетом.
Либо воспользоваться одним из множества бесплатных OCR-сервисов.
Источник
Источник: https://ruud.ru/it/38122-programmy-ocr-raspoznavanie-teksta-spiski-razrabotchiki-ves-programmy-vypolnyaemye-funkcii-xarakteristiki-osobennosti-raboty-i-otzyvy-polzovatelej/
OCR — технология распознавания сканированного текста, программы и онлайн инструменты
С развитием современных технологий в последние десятилетия 20 века произошла и модернизация доступа к печатному и рукописному тексту. Написанный текст был постепенно заменен печатным, который имеет по сравнению с текстом «на бумаге' ряд неоспоримых преимуществ (простое редактирование и форматирование)
С распознаванием сканированного текста связано такое понятие, как OCR. OCR является аббревиатурой от английского «Optical Character Recognition» — оптическое распознавание символов.
Речь может идти как о механическом, так и об электронном действии.
В большинстве случаев, происходит сканирование документа, который затем анализируется компьютерной программой, которая производит распознавание сканированного текста, отдельных его символов и слов.
OCR– технология распознавания сканированного текста
Технология OCR нашла применение во многих сферах деятельности
Цель и смысл распознавания с помощью OCR сканированного текста заключается в быстрой и дешевой передаче печатного или рукописного содержимого в электронный файл.
Важно отметить, что машинное распознавание текста в 20-25 раз быстрее, чем ручное переписывание.
OCR можно также использовать для переноса таблиц с номерами в компьютер, что может стать очень эффективным инструментом в любой профессии.
OCR-приложение не может сканировать, однако, может распознавать символы и изображения сканированного текста, создавать обычный текст, который можно в дальнейшем обрабатывать.
Оригинал документа на бумаге загружается с помощью сканера.
Программа для оптического распознавания сканированного текста позволяет определить отдельные блоки (графики, текст, абзацы и так далее), с последующим распознаванием слов и букв.
Довольно часто случается так, что не все символы получается определить. Система OCR для распознавания сканированного текста использует языковые базы данных для сравнивания сканируемых слов.
В случае сходства со словом в словаре, программа может исправить или добавить недостающие символы. В случае, если OCR не в состоянии распознать один символ в слове, это не значит, что слово будет помечено как неопознанное.
Если это просто неизвестное слово, то оно вносится в словарь с дополнительной корректировкой.
Новые OCR-программы для распознавания сканированного текста оснащены дополнительными функциями для проверки орфографии (как в MS Word), что позволяет улучшить процесс распознавания
Технология распознавания OCR, как процесс оцифровки, используется как для обычных задач (проверка паспортов), так и при проверке регистрационных знаков транспортных средств.
В основном, используется при оцифровке книг и текстов, например, для обеспечения возможности поиска или редактирования. Цифровой контент можно впоследствии редактировать, или же озвучить с помощью преобразования текста в голос.
OCR часто используется для распознавания капчи (CAPCHA).
CAPTCHA, как правило, тип цифровой защиты форм, чтобы через них не передавались автоматически генерируемые данные.
CAPTCHA представляет собой в основном рисунок, который отображает множество алфавитно-цифровых символов, которые пользователь должен ввести вручную.
Многие CAPTCHA требуют от пользователя не только простого ввода данных с картинки, но и выполнения математических операция или манипуляций с объектами.
Современные OCR приложения распознавания сканированного текста могут распознавать даже рукописный текст – это актуально для сенсорных устройств, которые позволяют писать текст с помощью специального пера, а не клавиатуры.
Сам процесс распознавания сканированного текста проходит в три стадии: pre-processing (предварительная), само OCR распознавание, post-processing (последующая обработка).
При предварительной обработке целью является подготовить сканированный документ до наилучшего состояния – поворот, очистка от нежелательных точек и др. – так, чтобы последующий процесс распознавания текста был как можно более точным.
В ходе последующей обработки (post-processingu) текст проверяется согласно словарю для данного языка; автоматически, или при помощи пользователя, исправляются ошибки и неправильно распознанные символы.
Краткая история OCR распознавания текста
Вверху — шрифт OCR-A, внизу — OCR-B
Разработка OCR началась около 30 лет назад, тем не менее, эта технология распознавания текста достаточно неизвестная и мало распространенная.
В гуманитарных областях, но и точных наук, в большинстве педагогических институтов, практически не используется.
В самом начале технология оптического распознавания сканированного текста была связана с двумя крупными компаниями American Bankers Association и Financial Services Idustry, которые стремились к быстрой и качественной обработке финансовых документов, чеков, ценных бумаг. OCR технология была отличным решением, с течением времени, однако, была заменена на более динамичную технику MICR (Magnetic Ink Character Recognition).
В 1966 году в США произошла стандартизация так называемого шрифта OCR-A, который был первым шрифтом, позволяющим машинное чтение.
Формы этого шрифта были упрощены, чтобы было само чтение как можно более точным, но шрифт не очень хорошо читается человеческим глазом. Шрифт OCR-A нашел применение в крупных банках.
В Европе возникает вскоре после этого (1968) стандартный шрифт OCR-B и его автором был Адриан Фрутигер. Этот стандарт хуже читается машиной, но обеспечивает лучшую читаемость невооруженным глазом.
Первые OCR инструменты распознавания текста были очень медленными, и не давали требуемой точности.
В основном, они ограничивались распознаванием специальных шрифтов OCR-A и OCR-B, со временем, однако, произошел их огромный бум. В 90-х годах произошло улучшение этой технологии.
Увеличение производительности OCR значительно снизило цены на сканеры, технология стала легко доступной.
OCR программы и онлайн сервисы для распознавания текста
Для OCR распознавания сканированного текста можно использовать несколько различных инструментов. Вы можете воспользоваться как интернет приложениями, так и полноценными программами.
За качество надо платить.
Попробовать trial-версии платных OCR программ для распознавания текста уже не так просто, как когда-то — их производители уже дали свой ответ на высокий уровень пиратства своего программного обеспечения выходом модели 30-дневных версий своего продукта, которые выполняют свою работу с ограниченными возможностями.
К ним относятся два из лидеров на OCR рынке: OmniPage с поддержкой 123 языков, и Readiris с поддержкой ста двадцати языковых наборов. Одним из немногих приложений, которые в последней версии вы можете попробовать на собственной шкуре, ABBYY Fine Reader.
- FreeOCR. Хотя есть много онлайн инструментов для OCR распознавания текста, лучшим решением всегда остаются прикладные программы. Как вариант, можно попробовать воспользоваться бесплатным приложением FreeOCR. Оно не только приносит полновесные варианты распознавания, сохраняя структуру текста, но и поддерживает широкий спектр входных и выходных форматов.
- TopOCR – OCR программа распознавания текста из фотографий и других документов. Программа, которая может отлично распознавать текст с картинки или фотографии, и конвертировать его в читаемый вид. В результате текст можно конвертировать в другие форматы и редактировать. Текст можно конвертировать в форматы TXT, PDF, RTF и HTML.
- ABBYY FineReader. FineReader представляет собой настоящего профессионала и один из очень немногих действительно применимых решений при передаче фотографий, изображений или сканируемого текста. Его сила основана на действительно вдумчивой системе, которая стоит на трех основных столпах. OCR программа сначала разбивает изображение на области, в соответствии узнаваемых структур, те в свою очередь подразделяются на буквы и слова. После того, как текст разбивается на буквы, происходит их распознавание и сравнение целых слов со словарем. Затем выбирается наиболее подходящее решение. Еще один столп говорит о целесообразности, когда каждый текст имеет свой контекст, и на него нужно тоже обратить внимание. Последним и очень важным элементом является адаптация – OCR программа для распознавания текста должна уметь учиться с собственных действий.
Если вы не хотите устанавливать на компьютере программы, то можете использовать онлайн распознавание OCR.
OnlineOCR (www.onlineocr.net).
Вероятно, лучший онлайн OCR конвертер, который вы можете встретить (хотя для раскрытия полного спектра функций вам необходимо бесплатно зарегистрироваться, иначе, вы будете ограничены количеством передаваемых документов, их размером и форматом). OnlineOCR поддерживает 32 языка. Сервис обладает отличной точностью распознавания текста и сохранения структуры документа.
NewOCR (www.newocr.com). NewOCR поддерживает 29 языков и анализ структуры текста.
Истинное сохранение структуры, однако, не ждите, единственным результатом преобразования является только текст непосредственно в приложении, возможность прямого сохранения в DOC или RTF отсутствует – текст придется копировать вручную.
В отличие от OnlineOCR, не нужно регистрироваться, ограничение на размер изображений установлено до 5 МБ. Фундаментальная проблема, однако, возникает при оценке точности транскрипции, тут онлайн распознавание OCR от NewOCR немного хромает.
Free OCR (www.free-ocr.com). Другим бесплатным и доступным онлайн OCR сервисом для распознавания текста является Free OCR. Позволяет конвертировать изображения до 2 МБ и одностраничные PDF, максимально 10 в час.
Поддерживает 29 языков, наборов, без регистрации и приносит несравненно более высокую точность, чем предыдущий NewOCR. Структура текста, однако, также не сохраняется и позволяет экспортировать только чистый текст (без форматирования).
Источник: http://matrixblog.ru/2016/02/16/ocr-texnologiya-raspoznavaniya-skanirovannogo-teksta-programmy-i-onlajn-instrumenty/
Blogerator.org
Любой современный человек, постоянно работающий с документами, время от времени задает себе злободневный вопрос: зачем повторно набирать текст, если ранее это уже кто-то сделал? У многих пользователей такая регулярно повторяющаяся задача вызывает раздражение с примесью обиды за то, что приходится бессмысленно дублировать чью-то работу. Естественно, разработчики программного обеспечения не могли остаться равнодушными к столь типичной ситуации, ликвидация которой к тому же обещала солидные прибыли. Так были созданы системы известные в России как системы оптического распознавания текста, а в англоговорящих странах — как OCR.
Сегодня область применения программного обеспечения OCR существенно расширилась: вначале оно применялось преимущественно в финансово-банковской сфере, решая специфические задачи автоматизации по вводу анкетных и опросных данных, но сегодня OCR-программы применяются уже повсеместно для работы с любыми документами. Трудно переоценить значение OCR-систем, превратившихся в такой необходимый софт и для офисного, и для домашнего компьютера.
Давайте кратко пройдемся по всем основным на рынке OCR-системам и выделим главные и характерные для них особенности.
Перед тем как начать рассмотрение OCR-систем, давайте сначала хотя бы минимально приведем их классификацию для удобства дальнейшего рассмотрения.
На данный момент выделяют OCR-системы (Optical character recognition, OCR), а также ICR-системы (Intelligent Character Recognition, ICR).
Несколько упрощая суть отличий между ними, можно считать, что ICR-системы – это следующее поколение в развитии OCR-систем.
В ICR гораздо более активно и серьёзно используются возможности искусственного интеллекта, в частности, ICR-системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов, а также, как самый яркий пример, преодолению тех же систем по защите от спам-ботов – каптч (captcha). Третий, пока ещё только теоретический уровень качества распознавания текста, это IWR (Intelligent word recognition, IWR), в которой считываются и распознаются не отдельные символы/точки, а считываются и распознаются связные фразы целиком.
Существует несколько систем, причисляющих себя к категории ICR. Это, прежде всего, FineReader, OmniPage Professional, Readiris Corporate, Type Reader Desktop. Давайте сравним их всех и рассмотрим возможные альтернативы.
Известные отечественные продукты
ABBYY FineReader – один из лидеров рынка OCR, текущая его версия – 10. Он выпускается в версиях под все ОС Windows, а также под ОС Mac OS X и Linux. Доступна также ограниченная online-версия этого пакета для оптического распознавания.
Сейчас в FineReader поддерживаются около 190 международных языков, кроме этого поддерживается восстановление не только текста исходного документа, но также и его структуры, что особенно полезно при работе с деловыми документами, где важна не только содержательная часть, но и внешняя сторона оформления и композиции документа.
Заклятый конкурент FineReader, с которым его постоянно сравнивают – OmniPage от компании Nuance Communications (бывшая ScanSoft).
Во многом очень похож по возможностям на FineReader, в частности, как и его конкурент, имеет очень хорошую поддержку распознавания фотографий полученных напрямик с цифровых камер, умеет конвертировать распознанный текст в форматы PDF, Microsoft Word и Excel, HTML, распознает более 120 языков. Текущая версия 17 поставляется как в версии для всех Windows-систем, так и в версиях для MacOS 9 и MacOS X, а также имеются версии для Linux и FreeBSD.
Скорость распознавания OmniPage 17 примерно равна FineReader 10 – это одни из самых сравнительно медленных программ такого рода. Обе программы по своим возможностям часто сравниваются друг с другом и это неудивительно, т.к. их возможности во многом эквивалентны.
Переходя к следующему заметный игроку на рынке OCR, это продукт CuneiForm от российской компании Cognitive Technologies.
Самый большой текущий минус этого вне всяких сомнений замечательного проекта, что ещё в конце 2007 года Cognitive Technologies забросила свой продукт, после чего он никак не обновлялся и не развивался все это время.
Сам движок этой OCR был выпущен под максимально свободной лицензией BSD в виде исходных текстов.
Из-за специфики технологии распознавания этой программы, которую, кстати, многие эксперты считают тупиковой, CuneiForm в состоянии уверенно распознавать только печатные тексты, и не в состоянии работать с рукописными и декоративными текстами, т.е. это – классическая OCR-система. Текущая и окончательная версия программы – 12. Написана она в виде кроссплатформенного приложения и может запускаться на Windows, Mac OS X, Linux.
На данный момент стараниями сторонних разработчиков этот движок распространяется и развивается под названием OpenOCR, впрочем, в силу открытости ядра, эту систему также использует множество других OCR-продуктов, например OCRFeeder.
Зарубежные продукты
Три других известных продукта, получившие малое распространение на территории СНГ в силу полного отсутствия представителей и маломальского маркетинга на этих бескрайних кириллических территориях, но известные на Западе и достойные хотя бы краткого упоминания, хотя бы потому, что также позиционируют себя как продукты ICR-класса. В нише некириллического распознавания они вполне могут составить здоровую конкуренцию даже лидеру рынка — FineReader.
Первый их них, это пакет Readiris от компании I.R.I.S. Group, представляет собой очень серьёзный OCR-продукт.
Достаточно сказать, что начиная с cентября 2006 года технология от компании I.R.I.S. была лицензирована и используется в продуктах Adobe systems.
Согласно внутреннему тестированию самой Adobe эта технология оказалось самой удачной из всех рассмотренных на рынке.
Нужно отметить, что это удачное стороннее решение “похоронило” свою собственную разработку Adobe — родного OCR-движка, — которая поставлялась многие годы в рамках решения Aсrobat Capture, и вот теперь новый OCR Adobe доступен в виде отдельного плагина в другие популярные продукты Acrobat. Последняя версия Readiris v12 поддерживает все версии Windows и MacOS X, а всего поддерживается работа с более чем 120 языками.
Следующая крупная разработка от американской компании ExperVision, Inc – TypeReader. Этот движок разработан в тесном сотрудничестве с Университетом Невада в Лас-Вегасе.
Этот движок распространяется по миру сразу во многих формах, начиная от интегрирования его в крупные западные системы документооборота (Document Imaging Management, DIM), и заканчивая участием во многих американских программах по автоматической обработке форм (Forms Processing Services, FPS).
Например, в 2008 году газета Los Angeles Times после собственного тестирования ведущих мировых OCR выбрала для своего внутреннего использования как раз именно TypeReader.
Хочется заметить, что данный продукт доступен как в традиционном десктопном исполнении (Windows, MacOS, Linux), в виде корпоративного web-сервиса, так и в форме облачного арендуемого приложения, способного обрабатывать любые объемы распознаваемого текста в очень короткие сроки.
Бесплатные OCR-решения
Интересный собственный движок развивает и Google. Tesseract – это первоначально закрытый коммерческий OCR-движок который создала Hewlett-Packard, работая над ним в промежутке между 1985 и1995 годами.
Но после закрытия проекта и прекращения его развития, HP выпустило его код как open source в 2005 году. Разработку сразу подхватила Google, лицензируя уже свой продукт под свободной лицензией Apache.
На данный момент Tesseract считается одним из самых точных и качественных бесплатных движков из всех существующих.
Нужно при этом четко представлять, что Tesseract – это классическая OCR для “сырой” обработки текста, т.е. в нем нет ни графической оболочки для удобного управления процессом, ни многих других дополнительных функций.
Это обычная консольная утилита (есть версии для Windows, MacOS, Linux), на вход которой подается изображение в формате TIFF, а на выходе Tesseract выдает “чистый текст”.
При этом никакого анализа компоновки текста или стилей оформления здесь не производится, это процесс распознавания в его простейшей форме.
Для большего удобства работы, в качестве графического фронтенда, с этим движком можно использовать многие утилиты, например известные OCRopus или OCRFeeder.
Но все же хочется отметить, что качество бесплатного CuneiForm/OpenOCR немного превосходит показатели Tesseract, хотя во многом это полностью аналогичные продукты.
Кроме бесплатного Tesseract ещё стоит упомянуть и SimpleOCR.
SimpleOCR очень достойное решение для OCR, и хотя оно не развивается уже с 2008 года, но оно как минимум ничем не уступает Tesseract.
Продукт бесплатен для любого некоммерческого использования, и поставляется для Windows всех версий. Из сильных минусов – поддержка только двух языков: английского и французского.
Кроме традиционных десктоповых бесплатных решений, существует множество альтернативных онлайновых сервисов, бесплатно предлагающих OCR и основанных на самых разных и экзотических движках, которые вы можете опробовать самостоятельно, благо сделать это очень удобно и просто, вот только некоторые из них: CVisionTech, OnlineOCR, FreeOCR, OCRTerminal, GoodOCR.
Заключение
В заключении хочется отметить, что сейчас в мире существует более чем 100 самых различных OCR-движков, мы попытались рассмотреть и сравнить здесь лишь самые известные и качественные из них.
Среди них существует также большое множество бесплатных OCR-программ любительского уровня, но их качество распознавания существенно ниже их коммерческих аналогов.
Для успешного решения бизнес задач (и других серьёзных повседневных задач) лучше ориентироваться на коммерческие системы ICR-класса, которые были рассмотрены в первой половине этой статьи.
Источник: http://blogerator.org/page/ocr_abbyy-finereader-omnipage-readiris-tesseract