Реліз системи розпізнавання тексту Tesseract 4.0
Реліз системи розпізнавання тексту Tesseract 4.0
Опубліковано реліз системи оптичного розпізнавання тексту Tesseract 4.0, що підтримує розпізнавання символів UTF-8 та текстів більш ніж на 100 мовах, включаючи російську, казахську, білоруську та українську. Результат може зберігатися як відкритим текстом, так і у форматах HTML (hOCR), PDF та TSV. Вихідні тексти проекту розповсюджуються під ліцензій Apache 2.0.
Спочатку систему було створено в 1985-1995 роках у лабораторії компанії Hewlett Packard, у 2005 році код було відкрито під ліцензією Apache і надалі розвивається за участю працівників компанії Google. Система включає консольну утиліту та бібліотеку libtesseract для вбудовування функцій розпізнавання тексту в інші додатки. Із підтримуючих Tesseract сторонніх GUI-інтерфейсівможна відзначити gImageReader, VietOCR і YAGF.
Основні покращення в Tesseract 4.0:
- Новий двигун розпізнавання, що базується на застосуванні системи машинного навчання на базі рекурентної нейронної мережі LSTM, оптимізованої для розпізнавання цілком рядків і дозволяє домогтися істотного збільшення точності. Старий двигун, що розпізнає текст на рівні шаблонів окремих символів, продовжує поставлятися як опція. Альтернативний двигун Cube видалений з кодової бази;
- Додані супутні новому OCR-движку утиліти для тренування моделі машинного навчання. Готові натреновані моделі опубліковані для 123 мов;
- Для нового двигуна розпізнавання підготовлені модулі для оптимізації продуктивності за допомогою OpenMP та SIMD-інструкцій AVX2, AVX або SSE4.1;
- Здійснено перехід до нумерації версій відповідно до специфікації "Cемантичне версіонування", що передбачає використання нотації X.Y.Z (замість раніше використовуваної W.X.Y.Z), в якій X змінюється при внесенні змін, що порушують зворотну сумісність, Y змінюється при розширенні функціональності та Z при виправленні помилок.
- Оновлено збірну систему. Для складання тепер потрібен компілятор із підтримкою C++ 11. Додані unit-тести. Доданий режим збирання без старого двигуна розпізнавання. Виконано реорганізацію дерева вихідних текстів. Проведено чищення застарілого коду;
- Покращена обробка багатосторінкових TIFF-зображень;
- Покращено експорт у PDF.