Разное по IT
  • Регистрация
1 1 1 1 1 1 1 1 1 1 Рейтинг 0.00 (0 Голоса)

Розпізнавання тексту та сканування документів ABBYY FineReader

Робота з різними типами документів

Даний розділ є "практичним керівництвом" по роботі із програмою ABBYY FineReader. Інформація, що є в цьому розділі, допоможе Вам поліпшити якість розпізнавання документів при роботі із програмою. Ви довідаєтеся, як уникнути деяких типових проблем при скануванні й розпізнаванні, таких як: помилки при скануванні, невірно задані параметри сканування/розпізнавання й т. д.  У розділі "Приклади" утримуються підказки й додаткова корисна інформація про сканування й розпізнавання певних типів складних документів, наприклад, таблиць, журнальних статей і т. д.  Ви довідаєтеся про можливі причини виникнення помилок і погіршення якості розпізнавання, а також про те, як уникнути й/або усунути ці проблеми. На додаток, цей розділ пропонує інформацію про використання деяких додаткових функцій програми FineReader, що забезпечують кращу якість розпізнавання текстів.
Сподіваємося, що даний розділ виявиться гарною підмогою для Вас при роботі із програмою!

Щоб ознайомитися з основними опціями програми ABBYY FineReader, див. Керівництво користувача або Довідку.

Типи документів:

1. Простий лист (неправильно підібрані параметри сканування). 2

2. Багатомовний документ. 3

3. Книжковий розворот. 3

4. Факси й інші документи з низькою якістю друку. 4

5. Складна журнальна сторінка. 4

6. Газетна сторінка. 5

7. PDF документ. 6

8. Робота з таблицями. 7

· Проста таблиця. 7

9. Таблиця з неповною кількістю чорних роздільників. 7

10. Складна таблиця. 8

9. Робота з візитними картками. 9

10. Робота із презентаціями PowerPoint. 10

11. Програмна роздруківка. 12

12. Документ, що використовує декоративний шрифт. 13

13. Фотографія документа. 14

1.  Простий лист (неправильно підібрані параметри сканування)

Як правило, документи простої структури не вимагають спеціальної установки опцій сканування й розпізнавання. Настроювання додаткових опцій необхідні тільки в тому випадку, якщо:

    розмір шрифту документа занадто дрібний; неправильно підібрана яскравість сканування.

Простий лист (неправильно підібрані параметри сканування)

(Font_300.tif)

1.  Дрібний шрифт
Для гарного розпізнавання дрібного шрифту документ необхідно отсканувати із більше високим дозволом - 400 -600 dpi (замість звичайних 300 dpi).

Зрівняєте результати сканування того самого документа з різними значеннями дозволу (перегляньте отримані зображення у вікні Крупный план у масштабі С точностью до пиксела, меню Вид > Вид > Окно Крупный план > Масштаб):

300 dpi ( Font_300.tif )

600 dpi ( Font_600.tif )

2.  Неправильно підібрана яскравість сканування
При розпізнаванні зображення Font_300.tif виникає повідомлення "Збільште яскравість сканування, щоб зробити зображення світліше". Це повідомлення викликане неправильно підібраною яскравістю сканування.

Для гарного розпізнавання отскановане зображення повинне бути чітким й повинно читатись. У нашому випадку зображення містить безліч дефектів - зайвих крапок і склеек букв. Перегляньте зображення у вікні Крупный план:

 - так виглядає Font_300.tif у вікні Крупный план.

 - приклад гарного (у змісті розпізнавання) зображення.

Докладніше про настроювання яскравості див. "Советы по подбору яркости ".

Рішення : Збільште яскравість сканування (зробіть зображення світліше) або отскануйте зображення в сірому режимі (у цьому випадку яскравість підбирається автоматично). Збільште дозвіл до 600 dpi. Результат застосування цих дій можна побачити, відкривши й розпізнавши Font_600.tif .

2.  Багатомовний документ

Опис ситуації: на одній сторінці зустрічається кілька мов розпізнавання.

Для розпізнавання даного документа необхідно вибрати кілька мов розпізнавання. Для цього: 

      У списку мов на панелі

Стандартная

      виберіть пункт

Выбор нескольких языков

      й у діалозі, що

відкрився, Язык распознаваемого текста

    вкажіть Англійську, Французький і Німецьку мови.

Примітка. Збільшення кількості підключених до розпізнавання одного документа мов може привести до погіршення якості розпізнавання. Не рекомендується підключати більше 2-3 мов.

3.  Книжковий розворот

Опис ситуації: за одне сканування сканується пара сторінок (книжковий розворот), при цьому кожна сторінка має свій кут нахилу, що негативно позначається на якості розпізнавання, крім того обидві сторінки зберігаються на одну сторінку у два стовпчики.

Книжковий розворот

(DualPage. tif)

При розпізнаванні зображення потрібно мати стандартну орієнтацію: текст повинен читатися зверху вниз, і рядки повинні бути горизонтальними. За замовчуванням при розпізнаванні програма автоматично визначає й коректує орієнтацію зображення. У зображенях зі здвоєними сторінками стандартна орієнтація відсутня, тому що кожна сторінка має свій кут нахилу.

Рішення : У програмі існує спеціальний режим, при якому зображення зі здвоєними сторінками розріжеться на дві частини й перетворюється у дві окремі сторінки пакета. Це дозволяє обробити кожну сторінку: автоматично виправити кут нахилу й зберегти розпізнаний текст із кожної сторінки в окремий файл (або на окрему сторінку).

      Щоб установити даний режим, перед додаванням зображення в пакет на закладці
Сканировать/Открыть
      в групі
Обработка изображений
      відзначте опцію
Делить разворот книги
    .

Розрізати зображення зі здвоєними сторінками на дві частини, які згодом будуть перетворені у дві окремі сторінки пакета, можна також за допомогою опції Разбить изображение. Докладну інформацію про роботу даної опції ви можете знайти в розділі "Работа с визитными карточками".

4.  Факси й інші документи з низькою якістю друку.

Опис ситуації:  погана якість печатки документа (багато "сміття" на зображенні, нечіткі границі букв, кутасті, нерівні букви з дефектами, перекіс рядків, зсув і неявні границі чорних роздільників таблиць). 

Рішення: Для підвищення якості розпізнавання даного документа його необхідно сканувати в сірому режимі. У цьому випадку вам не потрібно буде підбирати яскравість сканування - програма зробить це за вас автоматично. 

У випадку складної структури документа також рекомендується розбивати його на блоки вручну або контролювати процес автоматичної розбивки.

5.  Складна журнальна сторінка

Опис ситуації: погана якість розпізнавання внаслідок неправильного виділення блоків.

Складна журнальна сторінка

(Magazin. tif)

Рішення: У результаті автоматичного аналізу даної сторінки були виділені зайві блоки (наприклад, ділянки тексту на картинці). Перевірте кількість блоків, а також відредагуйте форму виділених блоків.

Для цього скористайтеся інструментами на панелі Изображение:

·  - щоб видалити виділені на картинці зайві блоки тексту;

·  і - щоб намалювати блоки непрямокутної форми;

·  і - щоб намалювати текстовий блок і блок-картинку.

Зауваження. При виділенні текстових блоків стежте за тим, щоб границі блоків збігалися із границями тексту.

Більш докладно про виділення й редагування блоків вручну див. у розділі " Выделение и редактирование блоков вручную ".

6.  Газетна сторінка

Опис ситуації:  погана якість розпізнавання внаслідок особливостей газетного паперу (жовта, з ворсинками й ін.), "сміття" на зображенні, неправильного виділення блоків.

Газетна сторінка

(Newspaper. tif)

Для підвищення якості розпізнавання газетної сторінки її рекомендується сканувати в сірому режимі. Сірий тип зображення забезпечує більш високий ступінь збереження інформації про букви скануємого тексту, що приводить до поліпшення якості розпізнавання документів середньої й низької якості друку.

Газетні сторінки являють собою багатостовпчиковий текст із картинками, деякі ділянки якого можуть розташовуватися поверх картинки, що  іноді може привести до неправильного виділення блоків при автоматичному аналізі. Про те, що робити у випадку неправильного виділення блоків, докладно написано в розділі "Складна журнальна сторінка".

 

7.  PDF документ

 PDF документ

 (PDF. pdf)

Одним з найбільш популярних форматів подання електронних документів в Internet, архівах і т. д. є формат PDF ( Portable Document Format ). 

Програма ABBYY FineReader допоможе вам розпізнати PDF документи й зберегти розпізнаний текст в обраний вами формат або передати його в зовнішній додаток.

За допомогою ABBYY FineReader ви також можете розпізнати зображення й зберегти текст в PDF файл. Вибір типу PDF файлу залежить від того, як ви збираєтеся використати створений PDF документ надалі:

Только текст и картинки Зберігається тільки розпізнаний текст і картинки в ньому. Можливий пошук по тексту. Розмір PDF-файлу невеликий. Режим оптимальний для документів з текстом і картинками на білому тлі (контракти, страхові поліси, листи, факси). Только изображение В даному файлі зберігається точне зображення сторінки. Отриманий документ не відрізнимо від оригіналу, але пошук по тексту неможливий. Режим рекомендується для пересилання по електронній пошті точних копій рахунків, сертифікатів й інших документів. Текст поверх изображения страницы Зберігається тло й картинки первісного документа, поверх яких накладається розпізнаний текст. Даний тип PDF файлів  оптимальний для документів з текстом на кольоровому тлі (рекламні буклети, брошури). Текст під зображенням сторінки
Зберігається точне зображення первісного документа, під яким зберігається розпізнаний текст. Отриманий документ не відрізнимо від оригіналу, і в ньому можливий пошук по тексту.

Щоб установити режими збереження у форматі PDF:

Клацніть по кнопці Форматы на закладці Сохранить в діалозі Опции (меню Сервис>Опции) або натисніть Ctrl+Shift+X. На закладці PDF діалогу Форматы встановити необхідний режим.

PDF є розповсюдженим форматом для пересилання документів по електронній пошті або публікації документів на веб-сайтах. Природньо, що при публікації на веб-сайтах дуже важлива висока швидкість відкриття документів. Документ, збережений із програми ABBYY FineReader у форматі PDF, відповідає подібним до вимог. Структура PDF така, що дозволяє відкривати в користувальницькому браузері для перегляду перші сторінки PDF документа, не чекаючи, коли весь файл цілком буде завантажений з веб-сервера.

8.  Робота з таблицями

·  Проста таблиця

Проста таблиця

(Table. tif)

Якщо зображення отскановано із правильними параметрами й таблиця має просту структуру (є всі чорні роздільники, таблиця не містить картинок, немає інвертованого або вертикального тексту), то її розпізнавання не вимагає встановлення яких-небудь спеціальних опцій.

9.  Таблиця з неповною кількістю чорних роздільників

Опис ситуації: всі рядки таблиці між чорними горизонтальними лініями (роздільниками) об'єднані в один рядок таблиці.

Таблиця з неповною кількістю чорних роздільників

(TableSep. tif)

Якщо в таблиці зустрічається змішаний поділ на рядки й стовпці, при якому деякі рядки розділені чорними роздільниками, а деякі, програма може розбити таблицю на рядки неправильно.

Рішення : Програму можна "змусити" виділяти кожен рядок тексту в окремий рядок таблиці. Для цього:

      У групі
Распознать
      діалогу
Дополнительные опции
      відзначте опцію
В каждой ячейке таблицы не более одной строки текста
      . Для того щоб відкрити цей діалог, натисніть кнопку
Дополнительные опции
      на закладці
Общие
      в діалозі
Опции
      (меню
Сервис
      >
Опции
    ).

10.  Складна таблиця

Опис ситуації: неправильний аналіз таблиць зі складною нерегулярною структурою: неправильний поділ таблиці на рядки й стовпці; неправильне виділення картинок в клітинах таблиці; погане розпізнавання вертикального й інвертованого тексту.

Складна таблиця

(TableDif. tif)

Рішення: Скористайтеся інструментами ручної розмітки таблиць, розташованими на панелі Изображение:

- щоб додати вертикальну лінію;

- щоб додати горизонтальну лінію;

- щоб видалити лінію.

Для клітин таблиці, що містять тільки картинки, у діалозі Свойства блока (меню Вид > Свойства блока), відзначте пункт Считать ячейку картинкой.

Для виділення картинок усередині осередків з текстом в окремі блоки, скористайтеся інструментом на панелі Изображение: .

Для клітин таблиці, що містять вертикальний текст, у діалозі Свойства блока (меню Вид > Свойства) у поле Направление текста вкажіть напрямок тексту в осередку; для осередків з інвертованим текстом (світлий текст на темному тлі) у списку, що випадає, Инверсия текста виберіть пункт Инвертирован.

9.  Робота з візитними картками

Робота з візитними картками

(Cards. tif)

Одним з віянь нашого часу стали візитні картки. Ви одержуєте їх не тільки від партнерів по бізнесу, але й від друзів, знайомих. Звичайно, це дуже зручно - вся важлива інформація про людину сконцентрована на листку паперу невеликого формату. Але іноді лякає їх кількість, і ми витрачаємо масу часу для того, щоб їх впорядкувати, привести в систему, знайти зручний засіб зберігання.

Ми пропонуємо вам простий і зручний спосіб уведення й зберігання візиток у комп'ютері за допомогою програми ABBYY FineReader. Всі візитки обробляються й зберігаються в пакеті програми. Використовуючи функцію повнотекстового пошуку по розпізнаних сторінках пакета, ви можете знайти потрібну візитку (при цьому пошук можливий по будь-якій розпізнаній інформації з візитки - за назвою компанії, прізвища, телефону й т. д.). Список знайдених візиток показується у вікні Поиск. Щоб відкрити візитку, виберіть запис у результатах пошуку. 
Ви можете поповнювати пакет новими візитками, редагувати вже розпізнані візитки у вікні Текст. 

Покладете кілька візитних карток (стільки, скільки вміститься) у сканер.

Увага! Візитки повинні бути розкладені так, щоб у результаті була отримана "таблична структура". Між рядами й колонками повинне бути деяка відстань. Припустимо або горизонтальне (більше довгі сторони візиток розташовані уздовж горизонталі), або вертикальне розміщення візиток на аркуші, але не обоє відразу.

Встановіть наступні параметри сканування:

разрешение
      - 400-600 dpi (звичайно візитні картки містять текст, набраний дрібним шрифтом, для гарного розпізнавання якого потрібно отсканувати документ із більше високим дозволом замість звичайних 300 dpi). 
тип изображения
    - сірий або кольоровий.

Натисніть кнопку 1- Сканировать.

Для підвищення якості розпізнавання отримані зображення з візитками варто розділити так, щоб кожній візитці відповідала окрема сторінка пакета. У цьому випадку виправлення перекосу рядків, аналіз і розпізнавання буде проводитися для кожної візитки. 
Для цього в меню Изображение виберіть пункт Разбить изображение. У діалозі, що відкрився, Разбить зображення натисніть кнопку, а потім кнопку ОК . У вікні Пакет з'являться нові сторінки: кожна сторінка буде містити зображення однієї візитки. При цьому вихідне зображення ( щомістить кілька візиток) буде вилучено з пакета. 

Примітка : Якщо зображення було поділено на візитки невірно, те спробуйте поділити зображення вручну. Для цього скористайтеся кнопками й . Щоб пересунути або видалити роздільник, натисніть кнопку Выбор разделителя - , мишею перемістить роздільник у потрібне місце. Для видалення роздільника перемістить його за межі зображення. Щоб видалити всі роздільники, натисніть кнопку .

Установіть мову розпізнавання. Якщо потрібно, установіть кілька мов розпізнавання. При цьому пам’ятайте, що збільшення кількості підключених до розпізнавання одного документа мов може привести до погіршення якості розпізнавання. Не рекомендується підключати більше 2-3 мов. Перед запуском розпізнавання перевірте підключені на закладці Сохранить шрифти: вони повинні містити всі символи мови розпізнавання. У противному випадку розпізнаний текст буде неправильно відображений у вікні Текст (у словах на місці деяких букв коштують значки "?" або "?").

Натисніть кнопку 2- Распознать.

10.  Робота із презентаціями PowerPoint

 Робота із презентаціями PowerPoint

(HandOuts. tif)

 Одним з популярних засобів створення сучасних презентацій є програма Microsoft PowerPoint. Презентація складається зі слайдів, наочно й інформативно представляють матеріал. Слайди презентацій, як правило, роздруковуються на одному або декількох аркушах паперу й лунають учасникам для поліпшення сприйняття й засвоєння інформації, а також внесення якихось заміток, що виникають у ході презентації, або пояснень.

Можливо, повернувшись із подібного роду презентації, ви захочете перевести наявні у вас роздруківки слайдів в електронний вид. Звичайно на одному аркуші розташовані 3-6 кадрів презентації, розпізнавання яких може бути утруднене через дрібний шрифт тексту слайдів.

Для підвищення якості розпізнавання документа із презентацією рекомендується:

У випадку дрібного шрифту отсканувати документ із більше високим дозволом - 400 -600 dpi (замість звичайних 300 dpi). Після того як зображення із презентацією отскановано, розрізати його таким чином, щоб кожному слайду відповідала окрема сторінка пакета. Для цього в меню Изображение виберіть пункт Разбить изображение. У діалозі, що відкрився, Разбить изображение натисніть кнопку , а потім кнопку ОК . У вікні Пакет з'являться нові сторінки: кожна сторінка буде містити зображення одного слайда. При цьому вихідне зображення із презентацією буде вилучено з пакета. Докладну інформацію про те, як розрізати зображення на кілька частин, Ви можете знайти в розділі "Работа с визитными карточками ". Далі ви можете обробити кожен слайд презентації окремо за аналогією з іншими документами; це можна зробити вручну або автоматично. 

Після того як сторінки із зображенням кожного слайда отримані й оброблені, ви можете їх розпізнати, відредагувати й зберегти результати розпізнавання в кожному з підтримуваних форматів, у тому числі в PowerPoint.

 

11.  Програмна роздруківка

Опис ситуації:  даний приклад має дві особливості, що впливають на якість розпізнавання:

    програма передає відступи від лівого краю аркуша не пробілами, а за допомогою завдання відступів абзацу; при експорті в. txt лівий відступ не зберігається; деякі рядки поєднуються в один абзац і при експорті поєднуються в один рядок; багато помилок при розпізнаванні конструкцій мов програмування.

Опис ситуації:  даний приклад має дві особливості, що впливають на якість розпізнавання

(listing. tif)

Рішення:

Для розпізнавання таких документів існує спеціальна опція програми Распознать как форматированный пробелами текст. Відзначте цю опцію в  діалозі Дополнительные опции в групі Распознать. Для того щоб відкрити цей діалог,  натисніть кнопку Дополнительные опции на закладці Общие діалогу Опции (меню Сервис>Общие).
У цьому випадку в розпізнаному тексті збережеться розподіл на рядки; відступи від лівого краю будуть  передані пробілами; кожен рядок виділений в окремий абзац, а відстані між абзацами передані порожніми рядками. Все це дозволить зберегти вихідне форматування тексту при збереженні у форматі txt. Для гарного розпізнавання роздруківок програм потрібно встановити спеціальна мова розпізнавання. Для цього:
      У списку мов на панелі
Стандартная
      виберіть значення
Выбор из полного списка языков
      й у діалозі, що
відкрився, Язык распознаваемого текста
    виберіть пункт C++.

Примітка. Якщо розпізнавана програмна роздруківка крім програмного коду містить текстові коментарі, то для гарного розпізнавання необхідно вибрати кілька мов розпізнавання: мова програмування й мова, на якому написані коментарі.

12.  Документ, що використовує декоративний шрифт

Опис ситуації : багато помилок при розпізнаванні.

Опис ситуації : багато помилок при розпізнаванні

(Training. tif)

Програма навчена розпізнаванню стандартних шрифтів і не призначена для розпізнавання декоративних шрифтів, наприклад, FuturisXShadow, ParagmaticaShadow, CyrillicGoth.

Рішення : Для підвищення якості розпізнавання даного документа скористаємося спеціальним режимом розпізнавання: распознавание с обучением. Звичайно в даному режимі розпізнаються 1-2 сторінки, у результаті чого створюється користувальницький еталон, що надалі підключається для розпізнавання інших сторінок. При цьому важливо пам'ятати, що створений еталон можна використовувати тільки для розпізнавання текстів, що використовують той же шрифт і розмір шрифту й отсканованих з тим же разрешением, що й документ, на основі якого даний еталон створювався.

Виділіть блоки на зображенні (меню Процесс > Распознать > Анализ макета страницы або ). Установити режим Распознавание с обучением (на закладці Распознать, меню Сервис>Опции в групі Распознавание с обучением встановити перемикач у положення Распознавание с обучением). У рядку стану з'явиться назва еталона (за замовчуванням default). Встановити мову розпізнавання (Английский). Натисніть кнопку 2- Распознать. Навчите еталон, розпізнавши сторінку в режимі розпізнавання з навчанням.

Символи заносяться в еталон, який створювається системою за замовчуванням. По закінченні навчання система збереже створений еталон (default. ptn) у папці, де зберігається пакет.

Відредагуйте еталон . Скасуєте режим Распознавание с обучением (на закладці Распознать в групі Обучение встановити перемикач у положення Распознавание с пользовательским эталоном).

13.  Фотографія документа

Опис ситуації: низька якість розпізнавання зображення.

 

Якість розпізнавання може бути низьким внаслідок низької якості зображення. Для успішного розпізнавання необхідні зображення гарної якості. Зробіть нову фотографію документа, якщо:

      Знімок занадто темний і неконтрастний.

Рішення
      :  Постарайтеся поліпшити висвітлення. Якщо такої можливості немає – потрібно встановити менше значення діафрагми. Знімок нерізкий.

Рішення
    : Можливо, автофокус погано спрацьовує через відсутність світла. Спробуйте поліпшити висвітлення. Якщо це не допомагає, використайте ручне фокусування.

Якщо нерізка тільки частина знімка - спробуйте виставити більше значення діафрагми. Знімайте з більшої відстані при максимальному оптичному збільшенні. Наводіть фокус на крапку, розташовану між центром і краєм зображення.

      Спалах створює пересвечену область у центрі кадру.

Рішення
      : Відключите спалах. Якщо немає можливості використати інші джерела світла, знімайте з більшої відстані. Рядка тексту спотворюються по краях зображення.

Рішення
      : Відзначте опцію
Устранить искажение срок
      у діалозі
Опции
      на закладці
Сканировать/Открыть
      (меню
Сервис
      >
Опции
    ).

Докладніше про те, як вибрати режим роботи фотоапарата й одержати знімок документа, придатний для розпізнавання тексту, див. у розділі "Зйомка текстів фотоапаратом".

Добавить комментарий


Защитный код
Обновить

По темам:

История Украины

Культурология

Высшая математика

Информатика

Охотоведение

Статистика

География

Военная наука

Английский язык

Генетика

Разное

Технологиеские темы

Украинский язык

Филология

Философия

Химия

Экология

Социология

Физическое воспитание

Растениевосдство

Педагогика

История

Психология

Религиоведение

Плодоводство

Экономические темы

Бухгалтерские темы

Маркетинг

Иностранные языки

Ветеринарная медицина

Технические темы

Землеустройство

Медицинские темы

Творчество

Лесное и парковое хозяйство