+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новини

Реліз системи оптичного розпізнавання тексту Tesseract 4.1

Реліз системи оптичного розпізнавання тексту Tesseract 4.1

Анонсовано реліз системи оптичного розпізнавання тексту Tesseract 4.1, що підтримує розпізнавання символів UTF-8 та текстів більш ніж 100 мовами, включаючи російську, казахську, білоруську та українську. Результат може зберігатись як відкритим текстом, так і у форматах HTML (hOCR), ALTO (XML), PDF та TSV. Спочатку система була створена в 1985-1995 роках в лабораторії компанії Hewlett Packard, в 2005 код був відкритий під ліцензією Apache і надалі розвивався за участю працівників компанії Google. Вихідні тексти проекту розповсюджуються під ліцензією Apache 2.0.

Tesseract включає консольну утиліту та бібліотеку libtesseract для вбудовування функцій розпізнавання тексту в інші додатки. Із підтримуючих Tesseract сторонніх GUI-інтерфейсів можна відзначити gImageReader, VietOCR і YAGF. Пропонується два движки розпізнавання: класичний, що розпізнає текст на рівні шаблонів окремих символів, і новий, що базується на застосуванні системи машинного навчання на базі нейронної рекурентної мережі LSTM, оптимізованої для розпізнавання цілком рядків і дозволяє домогтися істотного збільшення точності. Готові натреновані моделі опубліковані для 123 мов. Для оптимізації продуктивності пропонуються модулі, що використовують OpenMP та SIMD-інструкції AVX2, AVX або SSE4.1.

Основні покращення в Tesseract 4.1:

  • Додано можливість виводу в XML-форматі ALTO (Analyzed Layout and Text Object). Для використання цього формату слід запустити програму як "tessaract ім'я_зображення каталог_висновку alto";
  • Додано нові модулі рендерингу LSTMBox та WordStrBox, що спрощує проведення навчання двигуна;
  • Додано підтримку псевдографіки у виводі hOCR (HTML);
  • Додані написані мовою Python альтернативні скрипти для тренування двигуна на базі машинного навчання;
  • Розширено оптимізацію з використанням інструкцій AVX, AVX2 та SSE;
  • За умовчанням відключено підтримку OpenMP через проблеми з продуктивністю;
  • У движку LSTM додана підтримка білих та чорних списків;
  • Покращено складальні сценарії на базі Cmake.

Інші новини