зачем нужны программы распознавания текста

16.08.202304.05.2023 admin 0 Comments

Программы для распознавания текста

Рейтинг: / 18

Зачем нужны программы распознавания текста.

Программы распознавания текста позволяют работать с отсканированными изображениями. С их помощью выполняется редактирование информации, исправление ошибок, сохранение данных в нужном формате и т.д.

Как работает сканер.

Чтобы лучше понять ценность упомянутых программ разберемся с тем, как работает сканер. Механизм устройства помещен в корпус, верхняя часть которого представлена стеклом. Внутри находится яркая лампа и зеркала. Именно они отвечают за «фотографирование» источника для сканирования. При этом шрифт и изображения считываются в виде цветных, серых или черно-белых точек (в зависимости от модели устройства). А за распознавание текста и картинок отвечает драйвер сканера.

Полученное изображение является своеобразной фотографией исходного источника, будь то разворот книги, лист формата A4 или справка. Программы для распознавания текста позволяют расширить возможности пользователя, редактировать текст, исправлять ошибки.

Для наглядности рассмотрим пример. Допустим, вам нужно вставить большой кусок текста из книги в дипломную работу. Чтобы не тратить время на перепечатывание с листа, страницы можно отсканировать. Однако этого недостаточно, поскольку вы получите файлы-картинки, которые не подойдут для использования в Microsoft Word. С помощью программ для распознавания текста пользователь отредактирует полученное изображение и сможет вставить информацию в текстовый редактор.

Если предстоит сканирование листов с четко прописанными буквами, читабельным, ярким шрифтом, то с такой задачей справится любой сканер. Куда хуже обстоит дело, если речь идет о таких носителях информации, как старые, потрепанные листы бумаги или пожелтевшие газеты. Не каждый драйвер сможет идентифицировать подобный текст, а потому возможности специальной программы придутся как нельзя кстати. С их помощью утраченные области шрифта легко восстановить, дописав на клавиатуре в рамках редактора.

Отдельные программы предоставляют даже такие эксклюзивные возможности, как правка рукописного текста. Правда, для этого нужно, чтобы разрешение картинки было не меньше 300 точек на дюйм. Кроме того, буквы в строке должны быть примерно одной высоты, одного наклона и написаны как можно аккуратнее.

Функцию распознавания рукописного текста поддерживают такие программы, как ABBYY FineReader, CuneiForm (бесплатная утилита), MyScript Stylus, SimpleOCR и другие. Помимо русских символов они идентифицируют буквы, написанные на иностранном языке. Кроме того, программы распознают таблицы и рисунки, перенося их в компьютер для последующего редактирования.

Таким образом, ни один современный пользователь ПК, имеющий сканер, не обойдется без программы распознавания текста. Выбор платных и бесплатных утилит позволит выбрать то, что отвечает именно вашим запросам с точки зрения функциональности.

Источник

Зачем нужны программы распознавания текста

Для создания электронных библиотек и архивов путем перевода книг и документов в цифровой вариант и при необходимости редактирования полученного по факсу документа используются специальные системы распознавания символов (Optical Character Recognition, OCR).

С помощью сканера можно получить изображение страницы с текстом в графическом формате.

Но работать с этим текстом невозможно, потому что любое сканирование – это всего лишь изображение

Текст можно будет читать, распечатывать, но только не редактировать.
Для перевода графического документа в текстовый файл необходимо провести распознавание текста.

Программное обеспечение для распознавания текста

Преобразование графического изображения в текст занимаются программы, используюшие принцип оптического распознавания.

Современные программы с OCR умеют:

Видео YouTube

Любой символ легко описывается с помощью набора значений, определяющих расположение его частей. Например, обе буквы «Н» и буква «И» состоят из трех отрезков. Два из них расположены параллельно друг другу, а третий их соединяет. А различие – лишь в величине углов отрезков.

ABBYY Finereader является омнифонтовой системой распознавания текстов. Это значит, что она позволяет распознавать тексты, набранные практически любыми шрифтами.

Для запуска процесса распознавания достаточно положить лист бумаги в сканер и нажать кнопку Scan & Read на панели инструментов. Все остальные операции (сканирование, разбивка изображения на части, распознавание текста) выполнятся автоматически.

Параметры сканирования

Качество распознавания зависит от качества сканированного изображения.

Его можно регулировать установками параметров сканирования (тип изображения, разрешения, яркости, и т. д.).

Сканирование в режиме «серого» является оптимальным режимом для системы распознавания, так как в нем происходит автоматический подбор яркости.

Рис. Окно программы Cuneiform

Завершение распознавания

При распознавании FineReader сохраняет все параметры форматирования документа с его графическим оформлением.

Вопросы

1.Зачем нужны программы распознавания текста?

3. Как происходит распознавание текста?

4. Какие программы распознания текста вы знаете?

Источник

Распознавание документов на частном примере — обзор доступных платных и бесплатных решений

Всем привет! Типичная ситуация сложилась в компании, в которой я работаю. В бухгалтерии вечный аврал, людей не хватает, все занимаются чем-то безусловно важным, но по сути бесполезным. Такое положение дел не устраивало руководство.

Так передо мной, как аналитиком, встала задача: найти решение для распознавания документа типичного для моей компании — счет-фактуры — структурировать его в имеющиеся хранилища, а также в 1С. Решение, которое будет удобным, понятным, и не влетит компании в копеечку.

Опыт получился занятным, решил поделиться тем, что удалось собрать. Возможно я что-то упустил, поэтому велком в комментарии, если есть, что добавить.

Программы сканирования документов, программы распознавания документов — не новое решение на рынке, его можно найти как в бесплатных программах, так и встроенных в системы.

Начал я с бесплатных программ:

Однако есть и проблемы:

Технология сработала достаточно хорошо, Учитывая, что программы бесплатные, описанные выше проблемы допустимы. Однако, я искал более упорядоченного решения.

Затем я исследовал распознавание в ABBYY FineReader 15 Corporate

За 7-дневный срок триала я изучил и эту платформу.

Я стал искать альтернативу. Как освободить руки сотрудника, получить качественное распознавание документов и не переживать за сохранность и структуру данных.

И тут я решил получше разглядеть ELMA RPA, которую я уже изучал ранее.

Вендор предлагает перекинуть значительную часть работы по экспорту данных в ERP с плеч бухгалтеров на роботов. По сути, именно это решает поставленную передо мной задачу. Чтобы познакомиться с распознаванием в этой системе, я взял у вендора триальную версию системы.

Здесь я обнаружил, что распознавание не преследует цели конвертировать полученные данные в новый документ-файл.

Здесь главная цель — распознавание реквизитов документа и их передача в другие системы/сайты/приложения. Кроме того, роботы складывают всю информацию куда надо: автоматически находят нужные папки и сохраняют в необходимых форматах.

Какие виды распознавания в системе я посмотрел:

Распознавание по шаблону

Нам предлагается на основании шаблона документа распознать подгружаемый документ. Насколько мне известно, этот вид распознавания бесплатный, внутрь зашит движок Tesseract.

Однако, вендор на данный кейс сообщил, что этот вид распознавания адаптирован под простые документы, с текстовой структурой или с легкими формами. И посоветовал для распознавания счета-фактуры использовать другой вид распознавания — intellect lab.

Процесс тот же, загружаем шаблон и по нему распознаем. Но здесь шаблон отправляется на облачный сервер.

От сервера получаем ответ (распознает такой тип документа или нет), и если распознается, то передается структура шаблона (переменные для маппинга), для сопоставления переменных, которые необходимо будет записать в RPA процессе.

В процессе воспроизведения мы отправляем уже документ, который хотели бы распознать и получаем ответ от iLab сервера о распознавании.

Что отметил по поводу этого распознавания:

Соответственно, эти же данные робот записывает в 1С, создавая там новый документ:

Что удалось выяснить по ценам: Если мы, например, хотим работать масштабно именно с ilab распознаванием, то за наши 10 000 документов придется выложить:

Что понравилось в распознавании в этой платформе в целом:

Источник

Методы распознавания текста

Немного теории

Тема распознавания текста попадает под раздел распознавания образов. И для начала коротко о самом распознавании образов.
Распознавание образов или теория распознавания образов это раздел информатики и смежных дисциплин, развивающий основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов, которые характеризуются конечным набором некоторых свойств и признаков. Данное определение нам дает Wikipedia.

Итак, моя тема — это распознавание текста на графических изображениях и сейчас говорить о важности данного подраздела не приходиться. Всем давно известно, что существуют миллионы старых книг, которые хранятся в хранилищах ~~строгого режима~~, доступ к которым имеет только специализированный персонал. Использование этих книг запрещено по причине их ветшалости и дряхлости, так как возможно, что они могут рассыпаться прямо в руках читателя, но знания которые они хранят, представляют, несомненно, большой клад для человечества и поэтому оцифровка этих книг столь важна. Именно этим в частности занимаются специалисты в области обработки данных.

Теперь о самой работе. Было написано приложение, способное распознавать текст при использовании изображений высокого либо среднего качества, со слабым шумом либо без него. Приложение способно распознавать буквы английского алфавита, верхнего и нижнего регистра. Изображение подается для распознавания непосредственно из самого приложения.

Фильтрация и обработка

Сегментация

Непосредственно перед распознаванием изображение нормализуется и приводится до размеров шаблонов, подготовленных заранее.

Далее наступает сам процесс распознавания. Для пользователя имеется два выбора, при помощи метрик и при помощи нейронной сети.

Распознавание

Рассмотрим первый случай — распознавание при помощи метрик.

Метрика – некоторое условное значение функции, определяющее положение объекта в пространстве. Таким образом, если два объекта расположены близко друг от друга, то есть похожи (например, две буквы А написанные разным шрифтом), то метрики для таких объектов будут совпадать или быть предельно похожими. Для распознавания в этом режиме была выбрана метрика Хэмминга.

Метрика Хэмминга – метрика которая показывает, как сильно объекты не похожи между собой.

Данную метрику часто используют при кодировании информации и передаче данных. Например, после сеанса передачи на выходе имеется следующая последовательность бит (1001001), также нам известно, что должна прийти другая последовательность бит (1000101). Мы вычисляем метрику путем сравнения частей последовательности с соответствующими местами из другой последовательности. Таким образом метрика Хэмминга в нашем случае равна 2. Так как объекты отличаются в двух позициях. 2- это степень непохожести, чем больше, тем хуже в нашем случае.
Следовательно, чтобы определить какая буква изображена нужно найти ее метрику со всеми готовыми шаблонами. И тот шаблон, чья метрика окажется наиболее близкой к 0 будет ответом.

Но как показала практика подсчет одной лишь метрики не дает положительного результата, так многие буквы похожи между собой. например «j» «i», что приводит к ошибочному распознаванию.

Тогда было принято решение придумать новые метрики, позволяющие разграничить некоторое множество букв в отдельный класс. В частности, были реализованы метрики (Отражения горизонтального и вертикального, преобладания веса горизонтального и вертикального).

Экспериментом было выяснено, что такие буквы как «H» «I» «i» «O» «o» «X» «x» «l» обладают суперсимметрией (полностью совпадают со своими отражениями и значимые пиксели распределены равномерно по всему изображению), поэтому они были вынесены в отдельный класс, что сокращает перебор всех метрик примерно в 6 раз. Аналогичные действия были проведены в отношении других букв. В среднем уменьшение перебора достигает примерно 3 раза.
Также есть уникальная буква такая как «J», которая находится в своем классе одна, и значит идентифицируются однозначно. Далее, для каждого класса высчитывается метрика Хэмминга, которая на данном этапе дает лучшие показатели чем при прямом применении.
При создании шаблонов использовался шрифт «consolas», поэтому, если распознаваемый текст написан этим шрифтом, распознавание имеет точность порядка 99 процентов. При изменении шрифта, точность падает до 70 процентов.

Второй способ распознавания – при помощи нейронной сети.

Что такое нейронная сеть и в биологическом понимании, и в математическом я рассказывать не буду, так как данного материала полно в интернете и повторять его не хочется. Сказать лишь можно то, что в математическом смысле нейронная сеть — это лишь модель биологического определения.

Существуют также множества разновидностей этих моделей. В своей работе я использовал однослойную сеть Кохонена.
Принцип работы нейронной сети таков, что поучив на входной слой нейронов новое изображение сеть реагирует импульсом того или иного нейрона. Так как все нейроны поименованы значениями букв, следовательно, среагировавший нейрон и несет ответ распознавания. Углубляясь в терминологию сетей можно сказать, что нейрон помимо выхода имеет также множество входов. Данные входы описывают значение пикселя изображения. То есть, если имеется изображение 16х16, входов у сети должно быть 256.

Каждый вход воспринимается с определенным коэффициентом и в результате, по окончанию распознавания на каждом нейроне скапливается определенный заряд, чем заряд будет больше тот нейрон и испустит импульс.

Но что бы коэффициенты входов были правильно настроены необходимо сначала обучить сеть. Этим занимается отдельный модуль обучения. Данный модуль берет очередное изображение из обучающей выборки и скармливает сети. Сеть анализирует все позиции черных пикселей и выравнивает коэффициенты минимизируя ошибку совпадения методом градиента, после чего определенному нейрону сопоставляется данное изображение.

Все коэффициенты выровнены и готовы воспринимать изображения.
Точность распознавания при этом методе достигает 80 процентов. Следует заметить, что точность распознавания зависит от обучающей выборки, как от количества, так и от качества.

Источник

Зачем нужны программы распознавания текста

Урок 3: Программа распознавания текстов FineReader, версия 6.0. 2

Как устроен сканер

Немного упрощённая модель бытового сканера, но зато всё должно стать понятным.

Раньше сканеры подключались к компьютеру через LPT-порт. Но затем скорости этого порта стало не хватать, и сканеры начали подключать через более скоростной USB-порт.

Сканирование одной страницы у хорошего сканера должно занимать до 20 секунд.

После сканирования страницы лампа и зеркало сканера возвращаются на исходную позицию. Это называется обратным ходом сканера. Во время обратного хода можно переворачивать и менять страницы. Современный компьютер успевает за время обратного хода распознать отсканированную страницу.

Крышку сканера при сканировании текста закрывать не обязательно.

Параметры сканирования

Сканер выдаёт нам картинку. Эта картинка состоит из набора цветных или чёрно-белых точек, для каждой из которых сканер распознаёт цвет.

Плотность распознаваемых точек (то есть количество точек на единицу длины или площади) называется разрешающей способностью сканера или разрешением. Максимальная разрешающая способность ограничена оптическими возможностями сканера. Разрешение сканера можно регулировать программным путём. Уменьшение разрешения ускоряет работу сканера.

Разрешающая способность измеряется количеством точек на дюйм и обозначается как «dpi». Например, для сканирования нормального текста достаточно установить разрешение в 300 dpi, что составляет примерно 12 точек на миллиметр. Разрешение монитора компьютера меньше 100 dpi. Очень хорошим разрешением для принтера является 600 dpi. Поэтому для бытовых потребностей большего разрешения сканера и не требуется.

Если нам не важен цвет изображения, то можно облегчить работу сканеру и компьютеру, задав сканирование в сером режиме. При этом сканер будет определять для каждой точки один из 256 оттенков серого цвета. Это все оттенки от абсолютно белого до абсолютно чёрного. При этом сканер выдаёт для каждой точки число от 0 до 255, что значительно меньше миллионов цветных оттенков. Размер серого графического файла на порядок меньше размера цветного файла.

Но для сканирования текста нам и этого много. Нам нужно только отличать чёрные буквы от белой бумаги. Поэтому у сканера есть ещё третий режим сканирования. Это чёрно-белый режим. При чёрно-белом режиме для каждой точки определяется только два варианта цвета. Точка может быть или чёрной, или белой. Графический файл с чёрно-белым изображением тоже имеет на порядок меньший размер, чем файл с серым изображением.

А как же быть с серыми точками?

Сканер устанавливает условную границу серого цвета. Всё, что светлее этой границы, относится к белому цвету. А всё, что темнее, относится к чёрному цвету.

А как сдвигать эту границу, чтобы в чёрный цвет не попали серые пятна на бумаге или чтобы в белый цвет не попали бледные буквы? Эта граница сдвигается при помощи яркости.

Добавляя яркость, мы осветляем серую бумагу. Уменьшая яркость, мы зачерняем бледные буквы.

А если наш текст напечатан бледными буквами на грязно-серой бумаге, то нужно переходить к серому режиму сканирования, иначе пятна бумаги наложатся на буквы и отличить их станет невозможно.

Зачем нужна программа распознавания текста

Познакомившись со сканером и процессом сканирования, мы понимаем, что сканер можно сравнить с фотоаппаратом. Он выдаёт нам фотографию страницы текста. Это набор очень большого количества цветных или чёрно-белых точек.

А как же выделить текст из этих сотен тысяч и миллионов точек?

Для этого служат очень большие и сложные программы распознавания текста. Проводя сложный и трудоёмкий процесс анализа графического файла, программа распознавания текста отделяет и распознаёт символы или относит скопления точек к разряду рисунков.

На сегодняшний день лучшей в мире программой распознавания текстов является московская программа FineReader, которую мы и будем изучать.

Как правильно класть документ в сканер

Установите сканер возле себя на столе так, чтобы крышку вы открывали от себя, а шнуры подключения питания и соединения с компьютером входили в заднюю стенку сканера.

Документ закладывается текстом вниз, по направлению к стеклу сканера. В одних сканерах (чаще) документ ориентируется так, чтобы верхняя часть текста страницы была направлена на Вас (книжная ориентация) или верхняя часть разворота книги была слева (альбомная ориентация). В других сканерах наоборот: верхняя часть текста должна быть направлена к задней стенке сканера (книжная ориентация) или к правой стенке сканера (альбомная ориентация).

Общее правило такое. Верхняя часть текста должна находиться там, откуда стартует лампа сканера. Это будет правильная книжная ориентация. При книжной ориентации лампа сканера проходит текст сверху вниз. А правильная альбомная ориентация текста получается поворотом на 90 градусов по часовой стрелке. То есть, при альбомной ориентации лампа сканера должна проходить по тексту справа налево или против направления чтения.

Если лист положен правильно, тогда можно отключить автоматическое определение ориентации страницы, что ускорит распознавание текста.

Сканирование и распознавание

Перед сканированием книги не забудьте установить в настройках сканера признак альбомной ориентации изображения. А перед распознаванием не забудьте проверить язык распознавания текста в опциях FineReader.

Перечислим основные команды сканирования и распознавания.

Если Вы сканируете разворот книги (альбомная ориентация текста), то можно установить опцию «Делить Разворот Книги» на вкладке «Сканирование» диалога «Опции». Это приведёт к тому, что после сканирования FineReader разделит два листа разворота на два разных файла и будет распознавать их отдельно. Такой метод улучшит качество распознавания и уменьшит количество ошибок. При сканировании отдельных страниц эту опцию можно убрать.

Однако, FineReader может не понять, что перед ним разворот книги и оставить этот разворот как страницу текста в две колонки.

А бывает и ещё хуже. Если текст идёт во много колонок, FineReader может разделить разворот не посредине, а в другом месте. И тогда Вы получите полстраницы и полторы страницы текста и гарантировано неправильное распознавание. Поэтому будьте осторожны с переключателем «Делить Разворот Книги». Применяйте его только к качественному тексту в хорошо разворачивающейся книге.

На месте разворота обычно происходит изгиб бумаги. Место изгиба после сканирования выглядит как тёмная полоса. Если в изгиб попадают буквы, то в этом месте изображение строки изгибается, а сами буквы искажаются. Ещё буквы могут попадать как бы в серую тень изгиба, частично или полностью теряясь. Многочисленные ошибки в концах или в начале строк говорят о том, что книгу нужно сильнее прижать на развороте, чтобы уменьшить изгиб.

Если книгу не удаётся достаточно хорошо развернуть, перейдите на серый режим сканирования. Это уменьшит влияние тени изгиба на крайние буквы и улучшит распознавание.

Текст нормального размера и качества печати можно сканировать при «Ручном подборе яркости» 50%. В «Режиме сканирования картинок» нужно установить «Чёрно-белое изображение» при «Разрешении» 300. Это самый быстрый режим сканирования.

Если буквы мелкие, увеличьте Разрешение до 400, 500 или 600.

Если качество печати плохое или книга совсем плохо разворачивается, перейдите к «Автоматическому Подбору Яркости» и в «Режиме Сканирования Картинок» установите «Серый». Это замедлит сканирование, но улучшит качество распознавания.

Все эти параметры устанавливаются в диалоге «Настройки Сканера» («Control+Shift+s»).

Если на листе встречаются серые пятна или из-за тонкой бумаги и жирного чёрного текста проступают буквы и рисунки с обратной стороны страницы, увеличивайте яркость сканирования, например, до 60 или до 70. Это приведёт к исчезновению пятен и проступающих с обратной стороны страницы букв и рисунков.

Если буквы слишком бледные, то уменьшите яркость сканирования, например, до 40. Это приведёт к тому, что буквы станут более чёткими и жирными, и их легче будет распознавать.

Если текст на листе расположен в несколько колонок, как в журнале или газете, то на вкладке «Сканирование» диалога «Опции» переключатель «Тип Страницы» необходимо установить в положение «Авто». А если это обычный книжный текст, то лучше поставить переключатель «Тип Текста» в значение «Одна Колонка», что ускорит распознавание. Для верности лучше всегда держать этот переключатель в режиме «Авто».

Замечание. Если выставлен признак «Делить Разворот Книги», то книгу можно распознавать, установив переключатель «Тип текста» в значение «Одна колонка». Если же признак «Делить разворот книги» не выставлен, то обе страницы книги распознаются как один лист текста. То есть, получается текст, набранный в две колонки. Поэтому в таком случае необходимо установить переключатель «Тип текста» в положение «Авто», чтобы текст распознавался как состоящий из нескольких колонок.

Если нужно повторно отсканировать некоторые страницы, то установите на вкладке «Сканирование» диалога «Опции» признак «Запрашивать номер страницы перед добавлением в пакет». Это даст Вам возможность привести номер отсканированной страницы в пакете FineReader в соответствии с номером страницы в книге. Затем эту опцию можно будет отменить, так как дальше страницы будут нумероваться по порядку и добавляться в конец пакета.

Если текст распознаётся очень плохо или распознанный текст совсем нечитабелен, первым делом проверьте ориентацию страницы, то есть, правильно ли закладывается страница в сканер. Дальше проверьте на вкладке «Распознавание» диалога «Опции» самый первый параметр «Язык распознавания». Неправильно выбранный язык может привести к огромному количеству ошибок. Не ставьте «Русско-английский» язык распознавания, если в тексте нет английских букв, чтобы русские буквы не заменялись аналогичными по написанию английскими. И только после проверки языка распознавания увеличивайте разрешение сканирования и переходите к серому режиму сканирования.

Что такое Пакет

Когда Вы начинаете сканировать новую книгу, нужно создать для этого новый пакет. Это папка, в которую будут помещаться все файлы: отсканированные изображения, распознанные тексты и так далее.

Диалог создания и открытия пакета похож на диалог открытия и сохранения файла в Windows. Создание для каждой книги отдельного пакета гарантирует, что страницы разных книг не будут перемешиваться между собой. Продумайте имена для пакетов, чтобы Вам было в дальнейшем легко находить их.

Выделенные страницы можно распознавать, удалять или перенумеровывать.

Например, Вы отсканировали страницы книги с 20 по 50, а в пакете они имеют номера от 1 до 31. Тогда нужно перейти в окно «Пакет» («Alt+1»), выделить все страницы пакета («Control+a») и задать номер первой странице равным 20 (команда «Перенумеровать страницы» из меню «Пакет»).

Находясь в окне «Пакет» (на какой-то из отсканированных страниц) и нажав «Enter «, Вы откроете окно «Текст», в котором находится распознанный текст этой страницы. Иначе в окне «Текст» будет текст просматривавшейся Вами ранее страницы.

Вычитка текста

Из четырёх больших окон FineReader нас интересуют только два: окно со списком отсканированных страниц (окно «Пакет») и окно с распознанным текстом (окно «Текст»).

Здесь Вы можете работать, как в любом редакторе текстов. Можно выделять, удалять, копировать, вставлять текст. То есть, распознанный после сканирования текст можно править ещё до сохранения. Причём, Ваши исправления не пропадут, если Вы даже закроете FineReader, не сохранив исправленный текст в файл. Откорректированный Вами распознанный текст сохранится во внутренних файлах пакета. Только если Вы повторите распознавание страницы, распознанный текст изменится.

Обычно ошибки распознавания встречаются в местах с неуверенно распознанным текстом. Поэтому можно уделить основное внимание именно этим местам.

Сохранение текста

Диалог сохранения распознанного текста похож на диалог сохранения файла в Word. При открытии окна диалога курсор находится в поле имени файла. Задав имя файла, переходим при помощи табуляции к окну «Тип файла», где выбираем тип файла для сохраняемого текста.

Затем доходим при помощи табуляции до кнопки «Форматы». По пути можно проверить и изменить некоторые настройки. Если кнопка «Форматы» не нажимается клавишей «Enter», нажимаем её при помощи пробела. В крайнем случае применяем JAWS-курсор или курсор мышки. Делаем это так:

Открывается диалог «Форматы».

Дальше либо нажимаем «Enter «, чтобы сразу вернуться в диалог сохранения текста в файл, либо табулируем до кнопки «OK», устанавливая по пути в нужное состояние опции сохранения текста.

Например, при сохранении текста в формате «TXT» обязательно должна быть установлена опция «Сохранять деление на строки», чтобы текст в дальнейшем можно было читать «Блокнотом» в Windows 98 или программой «Reader» в ДОС.

Вернувшись в диалог сохранения текста, доходим при помощи табуляции до кнопки «Сохранить» и нажимаем её при помощи «Enter » или пробелом. Сохранённый таким образом текст можно будет в дальнейшем читать как в Windows при помощи Word, так и в ДОС при помощи чтеца Reader.

Альтернативным способом сохранения является команда «Передать выбранные страницы в Word «. Эта команда находится в меню «Файл». В этом случае FineReader запустит редактор Word, передаст ему выделенные Вами ранее распознанные страницы, и работа с текстом далее будет вестись по правилам редактора Word.

Настройка опций FineReader

Замечание. Не забудьте после установки параметров нажать кнопку «OK» или «Закрыть», чтобы изменённые параметры сохранились.

Поначалу самым главным будет переключатель «Язык распознавания» на вкладке «Распознавание».

Если настройки сканера вдруг предстанут перед Вами в незнакомом английском виде, загляните на вкладку «Сканирование» и установите радиокнопку «Использовать интерфейс FineReader». Если Ваш сканер совместим с FineReader, то диалог его настройки будет представлен в знакомом стандартном виде. В противном случае Вам придётся работать с оригинальным англоязычным интерфейсом драйвера Вашего сканера.

На вкладке «Общие» диалога «Опции» есть кнопки «Сохранить» и «Загрузить», которые позволяют сохранить установленные опции в виде файла или загрузить из файла сохранённые ранее опции.

Система помощи FineReader

FineReader обладает очень подробной и хорошо структурированной справочной системой.

Развернём для начала окно диалога справки. Для этого нажмём «Alt+Пробел» и дойдём затем «Стрелкой Вниз» до команды «Развернуть».

Идём вниз по содержанию до интересующей нас темы. Мы движемся по нулевому уровню содержания. Здесь расположены названия глав.

Чтобы перейти на первый уровень оглавления, где расположены названия статей справки, нажимаем «Enter» или «Стрелку Вправо». JAWS озвучивает переход между уровнями оглавления, что очень удобно.

Источник

Мой клан: моды, читы, скины, текстуры, карты

зачем нужны программы распознавания текста

Программы для распознавания текста

Зачем нужны программы распознавания текста