+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новини

Реліз системи розпізнавання тексту Tesseract 4.0

Реліз системи розпізнавання тексту Tesseract 4.0

Опубліковано реліз системи оптичного розпізнавання тексту Tesseract 4.0, що підтримує розпізнавання символів UTF-8 та текстів більш ніж на 100 мовах, включаючи російську, казахську, білоруську та українську. Результат може зберігатися як відкритим текстом, так і у форматах HTML (hOCR), PDF та TSV. Вихідні тексти проекту розповсюджуються під ліцензій Apache 2.0.

Спочатку систему було створено в 1985-1995 роках у лабораторії компанії Hewlett Packard, у 2005 році код було відкрито під ліцензією Apache і надалі розвивається за участю працівників компанії Google. Система включає консольну утиліту та бібліотеку libtesseract для вбудовування функцій розпізнавання тексту в інші додатки. Із підтримуючих Tesseract сторонніх GUI-інтерфейсівможна відзначити gImageReader, VietOCR і YAGF.

Основні покращення в Tesseract 4.0:

  • Новий двигун розпізнавання, що базується на застосуванні системи машинного навчання на базі рекурентної нейронної мережі LSTM, оптимізованої для розпізнавання цілком рядків і дозволяє домогтися істотного збільшення точності. Старий двигун, що розпізнає текст на рівні шаблонів окремих символів, продовжує поставлятися як опція. Альтернативний двигун Cube видалений з кодової бази;
  • Додані супутні новому OCR-движку утиліти для тренування моделі машинного навчання. Готові натреновані моделі опубліковані для 123 мов;
  • Для нового двигуна розпізнавання підготовлені модулі для оптимізації продуктивності за допомогою OpenMP та SIMD-інструкцій AVX2, AVX або SSE4.1;
  • Здійснено перехід до нумерації версій відповідно до специфікації "Cемантичне версіонування", що передбачає використання нотації X.Y.Z (замість раніше використовуваної W.X.Y.Z), в якій X змінюється при внесенні змін, що порушують зворотну сумісність, Y змінюється при розширенні функціональності та Z при виправленні помилок.
  • Оновлено збірну систему. Для складання тепер потрібен компілятор із підтримкою C++ 11. Додані unit-тести. Доданий режим збирання без старого двигуна розпізнавання. Виконано реорганізацію дерева вихідних текстів. Проведено чищення застарілого коду;
  • Покращена обробка багатосторінкових TIFF-зображень;
  • Покращено експорт у PDF.

Інші новини

Найкраща ціна