Содержание
Сканирование и распознавание текста
Добрый день.
Наверное, каждый из нас сталкивался с задачей, когда нужно перевести бумажный документ в электронный вид. Особенно это часто нужно делать тем кто учиться, работает с документацией, переводит тексты при помощи электронных словарей и т.д.
В этой статье мне хотелось бы поделиться некоторыми азами этого процесса. Вообще, сканирование и распознавание текста — довольно трудоемко, так, как большинство операций придется делать вручную. Мы попытаемся разобраться по шагам, что, как и почему.
Не все сразу понимают одну вещь. После сканирования (пригона всех листов на сканере) у вас будут картинки формата BMP, JPG, PNG, GIF (могут быть и другие форматы). Так вот с этой картинки нужно получить текст — это процедура называется распознаванием. В таком порядке и будет изложение ниже.
1) Сканер
Для перевода печатных документов в текстовый вид, вам для начала нужен сканер и соответственно, «родные» программы и драйверы, которые с ним шли. При помощи них можно будет сканировать документ и сохранить его для дальнейшей обработки.
Можно воспользоваться и другими аналогами, но софт, который шел со сканером в комплекте, обычно работает быстрее и имеет больше опций.
В зависимости от того, какой у вас сканер — скорость работы может существенно различаться. Есть сканеры, которые могут получить картинку с листа за 10 сек., есть которые будут получать за 30 сек. Если сканируете книгу на 200-300 листов — думаю, не трудно подсчитать во сколько раз будет разница во времени?
2) Программа для распознавания
В нашей статье я буду показывать вам работу в одной из лучших программ для сканирования и распознавания абсолютно любых документов — ABBYY FineReader. Т.к.
программа платная, то сразу дам ссылку и на другую — ее бесплатный аналог Cunei Form.
Правда, я бы не стал их сравнивать, ввиду того, что FineReader выигрывает по всем параметрам, рекомендую все же попробовать именно ее.
ABBYY FineReader 11
Официальный сайт: http://www.abbyy.ru/
Одна из лучших программ в своем роде. Она предназначена для того, чтобы распознать текст на картинке. Встроено множество опций и функций.
Может разобрать кучу шрифтов, поддерживает даже рукописные варианты (правда, лично не пробовал, думаю, хорошо вряд ли будет распознавать рукописный вариант, если только у вас не идеальный каллиграфический почерк).
Более подробно о работе с ней будет рассказано ниже. Здесь же отметим, что в статье будет рассказано о работе в программе 11 версии.
Как правило, разные версии ABBYY FineReader не сильно отличаются друг от друга. Вы без труда сделаете то же самое и в другой. Главные отличия могут быть в удобстве, быстроте работы программы и ее возможностях. Например, более ранние версии отказываются открывать документ PDF и DJVU…
3) Документы для сканирования
Да, вот так вот, решил вынести документы отдельной графой. В большинстве случаев сканируют какие-нибудь учебники, газеты, статьи, журналы и пр. Т.е. те книги и ту литературу которая пользуется спросом.
Я это к чему веду? Из личного опыта могу сказать, что многое, что вы захотите сканировать — возможно уже есть в сети! Сколько раз лично я экономил время, когда находил ту или иную книгу уже сканированную в сети.
Мне оставалось только скопировать текст в документ и продолжить с ним работу.
Из этого простой совет — прежде чем что-то сканировать, проверьте, может уже кто-то отсканировал и вам не нужно терять свое время.
2. Параметры сканирования текста
Здесь я не будут рассказывать о ваших драйверах для сканера, программах, которые вместе с ним шли, ибо все модели сканеров разные, ПО тоже везде разное и угадать и тем более показать наглядно как выполнять операцию — нереально.
Но во всех сканерах есть одни и те же настройки, которые сильно могут повлиять на скорость и качество вашей работы. Вот о них таки как раз и поговорим здесь. Буду перечислять по порядку.
1) Качество сканирования — DPI
Во-первых, качество сканирования поставьте в опциях не ниже 300 DPI. Желательно даже выставить побольше, если это возможно.
Чем выше показатель DPI — тем четче получиться ваша картинка, ну и тем самым, быстрее пройдет дальнейшая обработка.
К тому же чем выше качество сканирования — тем меньше ошибок вам в последствии придется исправлять.
Оптимальный вариант обеспечивает, обычно, 300-400 DPI.
2) Цветность
Этот параметр очень сильно влияет на время сканирования (кстати, DPI тоже влияет, но те так сильно, и только когда пользователь ставит высокие значения).
Обычно выделяют три режима:
— черно-белый (отлично подойдет для простого текста);
— серый ( подойдет для текста с таблицами и картинками);
— цветной (для цветных журналов, книг, в общем, документов, где важна цветность).
Обычно от выбора цветности зависит время сканирования. Ведь если документ у вас большой, то даже лишние 5-10 секунд на странице в целом выльются в приличное время…
3) Фотографии
Документ вы можете получить не только сканированием, но и сфотографировав его.
Как правило, в этом случае у вас будут некоторые другие проблемы: искажение картинки, смазанность.
Из-за этого может потребоваться более длительная дальнейшая правка и обработка полученного текста. Лично я не рекомендую пользоваться фотоаппаратами для этого дела.
Важно отметить, что не каждый такой документ получится распознать, т.к. качество сканирования у него может быть крайне низким…
3. Распознавание текста документа
Будем считать, что заветные сканированные страницы вы получили. Чаще всего они представляют собой форматы: tif, bmb, jpg, png. В общем-то, для ABBYY FineReader — это не сильно важно…
После открытия в ABBYY FineReader картинки, программа, как правило, на автомате начинает выделять области и распознавать их. Но иногда она делает это не правильно. Для этого-то мы и рассмотрим выделение нужных областей вручную.
Важно! Не все сразу понимают, что после открытия документа в программе, слева в окне отображается исходный документ, в котором вы и выделяете различные области.
После нажатия на кнопку «распознавания» программа в окне справа выведет вам готовый текст.
После распознавания, кстати, целесообразно проверить текст на ошибки в том же самом FineReader.
3.1 Текст
Эта область используется для выделения текста. Картинки и таблицы нужно исключать из нее. Редкие и необычный шрифты придется вводить вручную…
Для выделения текстовой области, обратите внимание на панель в верхней части FineReader. Там есть кнопка «Т» (см. скриншот ниже, указатель мышки как раз на этой кнопке).
Щелкаете по ней, затем на картинке ниже выделяете аккуратно прямоугольную область, в которой располагается текст. Кстати, в некоторых случаях нужно создавать текстовых блоков по 2-3, а иногда по 10-12 на страницу, т.к.
форматирование текста может быть разным и одним прямоугольником всю область не выделить.
Важно отметить, что в текстовую область не должны попадать картинки! В дальнейшем это вам сэкономит кучу времени…
3.2 Картинки
Используется для выделения картинок и тех областей, которые тяжело распознать из-за плохого качества, или необычности шрифта.
На скриншоте ниже указатель мышки находится на кнопке, используемой для выделения области «картинка». Кстати, в эту область можно выделить абсолютно любую часть страницы, а FineReader вставит ее потом в документ как обычную картинку. Т.е. просто «тупо» скопирует…
Обычно эту область используют для выделения плохо отсканированных таблиц, для выделения нестандартного текста и шрифта, само-собой картинок.
3.3 Таблицы
На скриншоте ниже показана кнопка для выделения таблиц. Вообще, лично я ее использую крайне редко.
Дело в том, что вам придется довольно рутинно рисовать (фактически) каждую линию на таблице и показывать что и как программе.
Если таблица небольшая и в не очень хорошем качестве, я рекомендую для этих целей использовать область «картинка». Тем самым сэкономите кучу времени, а таблицу можно потом в Word сделать быстренько на основе картинки.
3.4 Ненужные элементы
Важно отметить. Иногда на странице есть ненужные элементы, которые мешают распознать текст, или вообще не дают вам выделить нужную область. Их можно при помощи «ластика» удалить вовсе.
Для этого переходим в режим редактирования изображения.
Выбираем инструмент «ластик» и выделяем ненужную область. Она сотрется и на ее месте будет белый лист бумаги.
Кстати, рекомендую использовать вам эту опцию как можно чаще. Старайтесь все текстовые области которые вы выделили, где вам не нужен кусок текста, или присутствуют любые ненужные точки, размытости, искажения — удалять ластиком. Благодаря этому распознавание будет быстрее!
4. Распознавание файлов PDF/DJVU
Вообще, этот формат распознавания не будет отличаться ничем другим от остальных — т.е. работать с ним можно так же как с картинками. Единственное, программа не должна быть слишком старой версии, если файлы PDF/DJVU у вас не открываются — обновите версию до 11.
Небольшой совет. После открытия документа в FineReader — он автоматически начнет распознавать документ. Часто в файлах PDF/DJVU определенная область страницы не нужна во всем документе! Чтобы удалить такую область на всех страницах сделайте следующее:
1. Зайдите в раздел редактирования изображения.
2. Включите опция «обрезки».
3. Выделите область, нужную вам на всех страницах.
4. Нажмите применить ко всем страницам и обрежьте.
5. Проверка ошибок и сохранение результатов работы
Казалось бы, какие еще могут быть проблемы, когда все области были выделены, затем распознаны — бери да сохраняй… Не тут то было!
Во-первых, нужна проверка документа!
Чтобы ее включить, после распознавания, в окне справа, будет кнопка «проверка», см. скриншот ниже.
После ее нажатия программа FineReader будет автоматически показывать вам те области, где у программы возникли ошибки и она не смогла достоверно определить тот или иной символ.
Вам останется только выбирать, либо вы согласны с мнением программы, либо вводите свой символ.
Кстати, в половине случаев, примерно, программа будет вам предлагать готовое правильное слово — вам останется толкьо мышкой выбрать нужный вариант.
Во-вторых, после проверки вам нужно выбрать формат, в который вы сохраните результат своей работы.
Здесь FineReader дает вам развернуться на полную катушку: можно просто передать информацию в Word один в один, а можно сохранить ее в одном из десятков форматов. Но хотелось бы выделить другой важный аспект. Какой формат бы не выбрали, более важно выбрать тип копии! Рассмотрим самые интересные варианты…
Точная копия
Все области, которые вы выделяли на странице в распознанном документе будут соответствовать точь в точь исходному документу.
Очень удобный вариант, когда вам важно не потерять форматирование текста. Кстати, шрифты так же будут очень похожи на оригинал.
Рекомендую при таком варианте передавать документ в Word, чтобы уже там продолжить дальнейшую работу.
Редактируемая копия
Этот вариант хорош тем, что вы получите уже форматированный вариант текста. Т.е. отступов с «километр», которые возможно были в исходном документе — вы не встретите. Полезная опция, когда вы будете значительно редактировать информацию.
Правда, не стоит выбирать, если вам важно сохранить стилистику оформления, шрифты, отступы. Иногда, если распознавание прошло не очень успешно — ваш документ может «перекосить» из-за измененного форматирования. В этом случае целесообразно выбрать точную копию.
Простой текст
Вариант для тех, кому нужен просто текст со странице без всего остального. Подойдет для документов без картинок и таблиц.
На этом статья по сканированию и распознаванию документа подошла к концу. Надеюсь, что при помощи этих простых советов вы сможете решить свои задачи…
Удачи!
Источник: https://pcpro100.info/skanirovanie-teksta/
8 лучших программ и веб-сервисов для сканирования и распознавания текста
Наверное, каждому знакома ситуация, когда скан документа, например, страницы книги, необходимо преобразовать в печатный текст. Для этого существуют специальные программы, но основная их масса очень мало кому известна. На слуху у всех, пожалуй, только ABBYY FineReader.
Действительно, FineReader вне конкуренции. Это лучшая программа для сканирования и распознавания текста на русском языке, однако выпускается она исключительно в платных версиях и стоит весьма недешево.
Многие ли готовы выложить за самую бюджетную лицензию почти 7 000 рублей, если собираются обрабатывать одну-две книги в год?
Если вы считаете покупку дорогостоящего коммерческого продукта неоправданной, почему бы не воспользоваться аналогами, среди которых есть бесплатные? Да, они не так богаты функциями, но со многими задачами, которые, как считают многие, «по зубам» только FineReader, справляются вполне успешно. Так давайте познакомимся с несколькими доступными альтернативами. И заодно посмотрим, чем они отличаются от общепризнанного эталона.
ABBYY FineReader
Чтобы сравнивать другие программы с ABBYY FineReader, выясним, чем же он так хорош. Вот перечень его основных функций:
- Работа с фотографиями, сканами и бумажными документами.
- Редактирование содержимого файлов pdf — текста, отдельных блоков, интерактивных элементов и прочего.
- Конвертация pdf в формат Microsoft Word и обратно. Создание pdf-файлов из любых текстовых документов.
- Сравнение содержимого документов на 35 языках, например, отсканированного бумажного и электронного (не во всех редакциях).
- Распознавание и преобразование сканированных текстов, таблиц, математических формул.
- Автоматическое выполнение рутинных операций (не во всех редакциях).
- Поддержка 192 национальных алфавитов.
- Проверка орфографии распознанного текста на русском, украинском и еще 46 языках.
- Поддержка 10 графических и 10 текстовых форматов входных файлов, не считая pdf.
- Сохранение файлов в графическом и текстовом форматах, а также в виде электронных книг EPUB и 2.
- Чтение штрих-кодов.
- Интерфейс на 20 языках, включая русский и украинский.
- Поддержка большинства существующих моделей сканеров.
Возможности программы великолепны, но для домашних пользователей, которые не обрабатывают документы в промышленных объемах, избыточны.
Впрочем, тем, кому нужно распознать лишь несколько страниц, компания ABBYY предоставляет услуги бесплатно — через веб-сервис FineReaderOnline.
После регистрации доступна обработка 10 страниц отсканированного или сфотографированного текста, в дальнейшем — по 5 страниц в месяц. Больше — за доплату.
Стоимость самой недорогой лицензии FineReader для установки на компьютер — 6990 рублей (версия Standard).
WinScan2PDF
Крошечная и крайне простая бесплатная утилитка WinScan2PDF, конечно, не в состоянии конкурировать с монстром, но основную задачу — распознавание сканированного текста, решает как положено. Причем для этого она не требует даже установки на ПК (портабельная). И управляется всего тремя кнопками.
Для распознавания текста с помощью WinScan2PDF нажмите «Выбрать источник» и укажите подключенный сканер (с готовыми файлами программа, к сожалению, не работает). Поместите в сканер документ и нажмите «Сканировать». Если хотите отменить операцию, нажмите «Отмена». Вот и вся инструкция.
Утилита поддерживает 23 языка, включая русский, и работает с многостраничными файлами. Готовый результат сохраняется в формате pdf, скан документа — в jpg.
Веб-сервис Free-OCR.com
Free-OCR.
com (OCR — Optical character recognition, оптическое распознавание символов) — бесплатный Интернет-сервис для распознавания отсканированных или сфотографированных текстов, сохраненных в формате графического изображения (jpg, gif, tiff, bmp) или pdf. Поддерживает 29 языков, включая русский и украинский, причем пользователь может выбрать не один, а несколько, если их содержит исходный текст.
Free-OCR не требует регистрации и не имеет каких-либо ограничений по количеству загруженных документов. Ограничивается только размер файла — до 6 Mb. Многостраничные документы сервис не обрабатывает, точнее, игнорирует всё, кроме первого листа.
Скорость распознавания сканированного текста довольно высока. Лист А4 с фрагментом книги на русском языке был обработан примерно за 5 секунд, но вот качество не порадовало.
Крупные шрифты — как в детских книжках, он распознает на 100%, а средние и мелкие — примерно на 80%.
С англоязычными документами дела обстоят несколько лучше — мелкий и неконтрастный шрифт распознался правильно примерно на 95%.
Веб-сервис Free Online OCR
Free Online OCR — еще один бесплатный веб-сервис, очень похожий на предыдущий, но с расширенным функционалом. Он:
- Поддерживает 106 языков.
- Обрабатывает многостраничные документы, в том числе на нескольких языках.
- Распознает тексты на сканах и фотодокументах множества типов. Помимо 10 форматов графических изображений, обрабатывает документы pdf, djvu, doxc, odt, архивы zip и сжатые файлы Unix.
- Сохраняет выходные файлы в одном из 3 форматов: txt, doc и pdf.
- Поддерживает распознавание математических уравнений.
- Позволяет повернуть изображение на 90-180° в обе стороны.
- Правильно распознает текст в нескольких столбцах на одной странице.
- Может распознать один выбранный фрагмент.
- После обработки предлагает скопировать файл в буфер обмена, скачать на компьютер, загрузить на сервис Google Docs или опубликовать в Интернете. Также доступна возможность сразу перевести текст на другой язык, используя Google Translate или Bing Translator.
Надо отдать должное Free Online OCR и за то, что он неплохо читает картинки низкого разрешения и малой контрастности. Результат распознавания всех скормленных ему русскоязычных текстов отказался стопроцентным или близким к этому.
Free Online OCR, по нашему мнению, одна из лучших альтернатив FineReader, но бесплатно он обрабатывает только 20 страниц (правда, не указано, за какой период). Дальнейшее использование сервиса стоит от $0,5 за страницу.
Microsoft OneNote
Программа для создания заметок Microsoft OneNote, исключая очень старые и последнюю — 17 версии, тоже содержит функционал OCR. Он не такой продвинутый как в специализированных приложениях, но тоже пригодный к использованию, если нет других вариантов.
Чтобы распознать текст с изображения с помощью OneNote, вставьте картинку в файл («Рисунок» — «Вставить»), нажмите на нее правой клавишей мышки и выберите «Копировать текст из рисунка».
После этого вставьте скопированный текст в любое место заметки.
По умолчанию языком распознавания назначен английский. Если вам нужен русский или какой-либо другой, измените настройку вручную.
Качество распознавания русскоязычного текста в Microsoft OneNote оставляет желать лучшего, поэтому его нельзя назвать полноценной заменой FineReader. Да и обрабатывать в нем большие многостраничные документы весьма неудобно.
SimpleOCR
Старенькая бесплатная программа SimpleOCR — тоже весьма достойный инструмент распознавания текстов с электронных изображений и сканов, но, к сожалению, без поддержки русского языка. Зато в ней есть уникальная функция считывания рукописных слов, а также редактор, позволяющий исправить ошибки перед сохранением готового результата.
Другие возможности SimpleOCR:
- Проверка орфографии с возможностью пополнять словарь вручную.
- Чтение документов в низком разрешении и с помарками (есть опция очистки «шума»).
- Максимально близкая подборка шрифта и передача стилей написания (жирный, курсив). При желании функцию можно отключить.
- Одновременная обработка нескольких листов или отдельного фрагмента.
- Выделение возможных ошибок в готовом тексте для ручного редактирования.
- Поддержка множества модификаций сканеров.
- Входные форматы электронных документов: tif, jpg, bmp, ink, а также сканы.
- Сохранение готового текста в форматах txt и doc.
Качество распознавания и печатных текстов, и рукописей довольно высокое.
Программу можно было бы назвать универсальной, если бы не ограничение языковой поддержки.
Последняя версия поддерживает только английский, французский и датский языки, добавление других, скорее всего, не планируется. Интерфейс полностью на английском, но прост для понимания.
Кроме того, в главном окне есть кнопка «Demo», которая запускает обучающий ролик по работе с SimpleOCR.
Readiris
Программа Readiris бельгийской компании-разработчика I.R.I.S — вот это действительно настоящий конкурент российскому ABBYY FineReader.
Мощная, быстрая, кроссплатформенная, основанная на фирменном OCR-движке, используемом производителями Adobe, HP и Canon, она великолепно распознает даже самые трудночитаемые тексты.
Поддерживает 137 языков, среди которых есть русский и украинский.
Особенности и функции Readiris:
- Самая высокая скорость обработки файлов среди приложений такого класса, рассчитано на большие объемы.
- Сохранение форматирования исходного текста (шрифты, кегль, стиль написания).
- Одиночная и пакетная обработка файлов, поддержка многостраничных документов.
- Распознавание математических уравнений, специальных символов и штрих-кодов.
- Очистка текста от «шумов» — линий, помарок и т. п.
- Интеграция с различными облачными сервисами — Google Документы, Evernote, Dropbox, SharePoint и некоторыми другими.
- Поддержка всех современных моделей сканеров.
- Форматы входных данных: pdf, djvu, jpg, png и другие, в которых сохраняют графические изображения, а также полученное непосредственно со сканера.
- Форматы выходных данных: doc, docx, xls, xlsx, txt, rtf, html, csv, pdf. Поддерживается конвертация в djvu.
Интерфейс программы русскоязычный, использование интуитивно понятно. Она не предоставляет пользователям возможности редактировать содержимое файлов pdf, как FineReader, но с главной задачей — распознаванием текстов, на наш взгляд, справляется отлично.
Readiris выпускается в двух платных версиях. Стоимость лицензии Pro составляет 99,00€, Corporate — 199€. Почти как у ABBYY.
Freemore OCR
Freemore OCR — (! сайт программы http://freemoresoft.com/freeocr/index.
php может блокироваться антивирусами из-за встроенного в установщик рекламного «мусора») — еще одна простая, компактная и бесплатная утилитка, которая тоже неплохо распознает тексты, но по умолчанию только на английском. Пакеты других языков нужно загружать и устанавливать отдельно.
Прочие функции и возможности Freemore OCR:
- Одновременная работа с несколькими сканерами.
- Поддержка множества форматов графических данных, в том числе проприетарных, вроде psd (файл Adobe Photoshop). Стандартные форматы графики поддерживаются все.
- Поддержка pdf.
- Сохранение готового результата в формате pdf, txt или docx, причем для экспорта текста в Word достаточно нажать одну кнопку на панели инструментов.
- Встроенный редактор (к сожалению, форматирование исходного документа программа не сохраняет).
- Просмотр свойств документа.
- Печать распознанного текста прямо из главного окна.
- Защита паролем файлов в формате pdf.
На первый взгляд интерфейс программы может показаться сложным, но на самом деле пользоваться ею очень легко. Инструменты поделены на группы, как на ленте Microsoft Office. Если рассмотреть их повнимательнее, назначение той или иной кнопки быстро станет понятным.
Чтобы загрузить электронный документ в окно Freemore OCR, сначала выберем его тип — изображение или файл pdf, и следом нажмем соответствующую кнопку «Load». Чтобы начать процесс распознавания, нажимаем на кнопку «OCR» в одноименной группе инструментов рядом с изображением волшебной палочки (показана на скриншоте).
Результат сканирования англоязычных текстов как с хорошо-, так и с плохочитаемой картинки оказался вполне удовлетворительным.
Не понравилось лишь одно — то, что вместе с программой на компьютер устанавливается всякий мусор — какие-то липовые антивирусные сканеры, оптимизаторы и прочие ненужные вещи, причем без возможности отказаться от них во время установки.
Словом, если бы не этот недостаток, приложение можно было бы рекомендовать в качестве неплохой бесплатной альтернативы FineReader.
Источник: https://CompConfig.ru/software/programmy-i-servisy-dlya-skanirovaniya.html
Программы для редактирования сканированных документов
Приветствую всех читателей блога SoftHardware.ru! Полгода назад я рассказывал о программах для редактирования PDF документов, а сегодня мы будем говорить о программах для редактирования отсканированных документов.
Люди, много работающие с печатными материалами, часто сталкиваются с ситуациями, когда нужно перенести текст или изображение из печатного носителя в цифровой – из книги в компьютер.
При наличии сканера эту проблему можно решить очень просто, однако помимо сканирования необходимо также распознать текст или изменить картинку.
Выполнить эту задачу поможет программа для редактирования сканированных документов – о таких программах я и расскажу в этой статье.
Ввиду особенностей своей работы, сканер переносит текст из книги, журнала, газеты в компьютер в виде изображения – можно сказать, «фотографирует» его.
Соответственно, внесение изменений в такой текст сразу же после сканирования не представляется возможным – текстовый редактор не сможет распознать символы (данную проблему я рассматривал в статье Бесплатные программы для сканирования документов). Решить проблему, как после сканирования редактировать текст, смогут специальные OCR-приложения. Наиболее функциональной и распространенной утилитой для выполнения данной задачи является ABBYY FineReader, однако она имеет существенный недостаток – достаточно высокую стоимость. Мы же рассмотрим бесплатный аналог.
OCR CuneiForm
OCR CuneiForm – программа для редактирования отсканированных документов, которая распознает символы и импортирует текст в текстовые редакторы.
Эта утилита умеет работать с любыми полиграфическими и машинописными шрифтами, но с рукописными текстами справляется не очень хорошо.
Наиболее удачным вариантом программа OCR CuneiForm станет для переводчиков и лингвистов – она поддерживает распознавание с более чем 20 языков, среди которых русский, английский, польский, украинский и другие.
Чтобы распознать текст при помощи OCR CuneiForm, нужно запустить программу, открыть файл с отсканированным текстом и выбрать операцию распознавания. После этого пользователь может сохранить получившийся результат в предпочитаемом формате, отредактировать его в соответствии со своими нуждами.
Интересной особенностью утилиты является технология самообучения на базе адаптивного распознавания символов.
По результатам тестирования программа редактирования сканированных документов OCR CuneiForm неоднократно признавалась лучшей среди конкурентов.
Самым главным плюсом данной программы, является возможность распознавать текст практически с любого изображения!
Скачать OCR CuneiForm (32,1 mb)
Распознавание текста — бесплатная программа
Бесплатная программа для автоматического распознавания отсканированного текста. Вид у программы не карамельный, но дело своё она знает.
Компьютер уже уверенно вошел в жизнь рядового гражданина. Когда надо получить сравнительно небольшой объем печатной информации, проще всего набрать этот текст вручную при помощи текстового редактора.
Однако иногда надо «переписать» целую книгу. В таких случаях рациональнее всего использовать сканер. Но сам по себе сканер делает только фотокопию текста, которую никак нельзя редактировать. Для того, чтобы изменить информацию на полученном изображении следует провести распознавание документа.
Бесспорным лидером в этом деле является система OCR (англ. optical character recognition — оптическое распознавание текста) от Abbyy — FineReader.
Но стоит она довольно дорого и не каждый может позволить себе иметь в своем арсенале такой инструмент. Сегодня мы познакомимся с бесплатной альтернативой Файн Ридера — программой CuneiForm.
Приведу сравнительную таблицу возможностей обеих пакетов:
Сравнение распознавалки текста CuneiForm с платным аналогом FineReader
Особенности | CuneiForm | FineReader |
Стоимость | бесплатно | от 1340 р. |
Количество языков распознавания | 34 | 184 |
Возможность комбинировать языки распознавания | — | + |
Сохранение исходного форматирования текста | + | + |
Пакетное распознавание текста | + | +/- |
Ограничение по разрешению файла-скана | до 400 dpi | нет |
Поддержка всех типов сканеров | только с TWAIN-интерфейсом | + |
Как видим, если хочется бесплатно распознавать текст, придется кое в чем уступить. Первое, с чем придется смириться — неумение CuneiForm работать с некоторыми сканерами (в особенности сканерами МФУ). Поэтому придется сканировать документ при помощи стандартных функций Windows. Второе — надо следить за разрешением сканирования.
Это связано с тем, что CuneiForm не может обрабатывать большие файлы (свыше 100 Кбайт), а чем выше разрешение, тем больший размер файла-скана.
Зато качество распознавания текста в программе намного выше, чем у платного конкурента, а поэтому оптимальным вариантом параметров скана будет 200 dpi (можно и больше, но тогда есть вероятность, что программа просто зависнет).
Количество языков тоже невелико, но основные есть. Более того, хоть комбинировать языки и нельзя, зато в CuneiForm есть смешанный англо-русский режим распознавания! На этом минусы заканчиваются :). Можно начинать установку.
Установка CuneiForm
Здесь сложностей нет, поскольку Вам поможет инсталлятор. Просто запускайте установочный файл и следуйте инструкциям. После установки в меню «Пуск» появится новый раздел. Открываем его и запускаем CuneiForm.
Интерфейс программы
Интерфейс CuneiForm намного проще, чем у Fine Reader, и почти не требует настройки. Программой можно полностью управлять благодаря кнопкам на панели инструментов. Рассмотрим их более детально:
Программа может работать в режиме мастера, который активируется первой кнопкой. Но если CuneiForm не поддерживает Ваш сканер, то от этого режима стоит отказаться.
Следующая кнопка запускает процесс сканирования (опять же, если есть поддержка сканера). На этой и следующих кнопках Вы можете заметить небольшие стрелочки.
Нажав на них, мы получим доступ к некоторым дополнительным функциям.
Работа с CuneiForm
Теперь давайте опробуем CuneiForm на практике.
Если программа поддерживает Ваш сканер, то первой кнопкой, которую следует нажать, будет «Получить изображение».
Если же такой возможности нет, то откроем уже готовый скан (поддерживаются форматы JPG, GIF, BMP, PNG (не всегда корректно), а также TIF (в полной мере)).
Теперь следует произвести разметку. Она помогает определить блоки, из которых состоит страница. Поддерживается распознавание блоков в виде текста (синяя рамка), рисунков (зеленая рамка) или таблиц (оранжевая рамка) (автоматическую разметку можно доработать вручную, используя контекстное меню блока).
Когда текст обозначен, самое время провести его распознавание. Для этого нажимаем следующую кнопку.
По окончании процесса распознавания в рабочем окне отобразится текст, который можно редактировать в небольшом встроенном текстовом редакторе похожем на Microsoft Word.
При этом Вы сразу сможете увидеть те слова, в которых программа «не уверена» (голубая подсветка) и в которых есть ошибка (сомнительная буква — розовая).
И, наконец, после успешного редактирования можно сохранить результат нашей работы. Кликаем последнюю кнопку на панели инструментов и сохраняем текст как RTF, HTML или TXT-файл.
Если же Вы желаете большего, то, нажав на стрелочку сбоку, Вы сможете выбрать опции экспорта в одну из предложенных программ (Microsoft Word, Excel или Евфрат).
Посмотрите на предыдущий скриншот. Наверняка вы обратили внимание, что в дополнительных меню кнопок, начиная с «Разметки» и заканчивая «Сохранением», есть в конце пункт «Автомат».
Активирование этой опции освобождает Вас от нажатия выбранной кнопки. То есть можно автоматизировать процесс обработки скана до того, что Вы будете лишь открывать новый документ.
Все остальное CuneiForm сделает сама!
Общие настройки CuneiForm
Программа изначально настроена самым оптимальным образом, но если Вы что-то захотите изменить, просто зайдите в меню «Файл» и выберите опцию «Общие параметры». Это может пригодиться для смены языка и некоторых других параметров распознавания, форматирования и сканирования текстов.
Пакетное распознавание
На этом можно было бы и закончить, если бы в пакет CuneiForm не входила еще одна утилитка. Откройте «Пуск» снова и в папке с программой обнаружите еще одно приложение — «Пакетное распознавание».
Представьте, что Вы отсканировали целую книгу! и теперь надо ее распознать!!! Если открывать каждый файл-скан по отдельности на это уйдет уйма времени, пакетный же режим представляет возможность указать нужные файлы, а об остальном программа позаботится сама.
Для начала нужно создать новый пакет файлов. Нажимаем соответствующую кнопку и следуем подсказкам запустившегося мастера:
На последнем этапе мы можем либо просто сохранить наш пакет, либо начать немедленное распознавание. В последнем случае запустится режим распознавания, который может затянуться на несколько минут (в зависимости от количества файлов-сканов).
По окончании распознавания Вы сможете увидеть в основном окне все распознанные документы. Если распознавание прошло успешно, то в левой боковой панели Вы обнаружите активными только два списка: «Исходные» и «Обработанные». Если же будут файлы, которые не удалось распознать, их мы найдем в разделе «Ошибки».
Теперь остается только сохранить полученные файлы и радоваться жизни :).
Выводы
Потенциал у CuneiForm явно хороший, однако разработка ведется довольно медленно.
Несмотря на открытый исходный код, компания Cognitive, видимо, очень требовательна к разработчикам, раз прогресс так долго не появляется.
Остается только надеяться, что дело сдвинется с мертвой точки и программа станет еще лучше, а пока довольствуемся малым. Но такое ли уж оно и малое… Выбор за Вами!
P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Тертышного.
P.P.S. Вам также может пригодится еще одна довольно занятная программа. GetWindowText, пусть и не полноценная система распознавания, но может помочь Вам захватить текст и графику с экрана для последующей обработки:
Захват экрана https://www.bestfree.ru/soft/office/capture.php
подпишитесь на новые видеоуроки!
Источник: https://www.bestfree.ru/soft/office/recognition.php
5 бесплатных программ для сканирования и распознавания текста
Программы для распознавания текста позволяют конвертировать сфотографированные или отсканированные документы непосредственно в предложения.
Дело в том, что текст на изображении представлен в виде растра, набора точек. Упомянутый софт осуществляет превращение набора точек в полноценный текст, доступный для редактирования и сохранения.
Распознавание букв призвано оптимизировать процесс оцифровки бумажных печатных или рукописных книг, документов.
Такой метод оцифровки на порядки превосходит скорость ручного набора с изображения. Широко применяется при оцифровке библиотек и архивов. Далее рассмотрим пятерку лучших представителей семейства подобных программ.
ABBYY FineReader 10
FineReader безоговорочный лидер среди всех программ, распознающих текст на изображении. В частности, софта, более четко обрабатывающего кириллицу нет. Вообще в активе FineReader 179 языков, текст на которых распознается чрезвычайно успешно.
Единственное обстоятельство, которое может разочаровать пользователей, состоит в том, что программа платная. Бесплатно распространяется только пробная версия на 15 дней. За этот период разрешено сканирование 50-ти страниц.
Дальше за пользование программой придется платить. FineReader легко «кушает» любое более-менее качественное изображение. Источник при этом совершенно неважен. Будь то фотография, скан страницы или любая картинка с буквами.
Достоинства:
- точное распознавание;
- огромное количество языков чтения;
- толерантность к качеству изображения-источника.
Недостаток:
- пробная версия на 15 дней.