Опубліковано реліз системи оптичного розпізнавання тексту Tesseract 5.0

Опубліковано випуск системи оптичного розпізнавання символів Tesseract 5.0

Tesseract 5.0 підтримує розпізнавання символів UTF-8 і розпізнавання тексту більш ніж на 100 мовах, включаючи російську, казахську, білоруську та українську. Результат можна зберегти як у звичайному тексті, так і у форматах HTML (hOCR), ALTO (XML), PDF та TSV. Спочатку система створювалася в 1985-1995 роках в лабораторії компанії Hewlett Packard, в 2005 році код був відкритий під ліцензією Apache і надалі розвивався за участю співробітників Google. Вихідний код проекту поширюється під ліцензією Apache 2.0.

Tesseract включає в себе консольну утиліту і бібліотеку libtesseract для вбудовування функцій розпізнавання в інші додатки. Зі сторонніх інтерфейсів графічного інтерфейсу  , що підтримують Tesseract, можна відзначити gImageReader, VietOCR і YAGF. Пропонуються два механізми розпізнавання: класичний, який розпізнає текст на рівні окремих шаблонів символів, і новий, заснований на використанні системи машинного навчання на основі рекурентної нейронної мережі LSTM, оптимізованої для розпізнавання цілих рядків і дозволяє домогтися значного підвищення точності. Готові навчені моделі видаються на 123 мовах. Для оптимізації продуктивності доступні модулі, в яких використовуються OpenMP і SIMD-інструкції AVX2, AVX, NEON або SSE4.1.

Основними поліпшеннями Tesseract 5.0 є:


Опубліковано: 1 грудня 2021


Вибрати програмне забезпечення


Напишіть запит на програмне забезпечення нам у Viber
+380503703627


Контакти Ай Ті Про

info@itpro.ua
Телефон: +38 (044) 257-24-44