Amazon оголосила про доступність хмарного ІІ-інструменту AmazonTextract для обробки тексту.

30 травня 2019

Amazon оголосила про доступність хмарного ІІ-інструменту AmazonTextract для обробки тексту.

Amazon запустила хмарний ІІ-інструмент Textract для обробки тексту. Він доступний користувачам платформи AWS і може обробляти мільйони сторінок лише за кілька годин.

Amazon Textract - це сервіс, який автоматично отримує текст і дані з відсканованих документів. Amazon Textract виходить за рамки простого оптичного розпізнавання символів (OCR) і дозволяє ідентифікувати вміст полів у формах та інформацію, що зберігається в таблицях.

Багато компаній сьогодні отримують дані з документів і форм за допомогою ручного введення даних, яке є повільним і дорогим, або за допомогою програмного забезпечення для простого оптичного розпізнавання (OCR), яке вимагає ручного налаштування або налаштування. Правила та робочі процеси для кожного документа та форми часто вимагають жорсткого кодування та оновлення при кожній зміні форми або при роботі з кількома формами. Якщо форма відхиляється від правил, вихідні дані часто шифруються та не можуть бути використані.

Amazon Textract долає ці проблеми, використовуючи машинне навчання для миттєвого читання практично будь-якого типу документа, щоб точно витягти текст і дані без необхідності будь-яких ручних зусиль або спеціального коду. З Textract можна швидко автоматизувати робочі процеси документів, дозволяючи обробляти мільйони сторінок документів за години. Після того, як інформація отримана, ви можете зробити дії з нею у своїх бізнес-додатках, щоб ініціювати наступні кроки для заявки на кредит або обробки медичних вимог. Крім того, ви можете створювати інтелектуальні пошукові індекси, створювати автоматизовані робочі процеси затвердження та краще підтримувати відповідність правилам архівування документів, позначаючи дані, які можуть вимагати редагування.

Можливості Amazon Textract

Оптичне розпізнавання символів (OCR) Optical Character Recognition (OCR)

Amazon Textract використовує технологію оптичного розпізнавання символів (OCR) для автоматичного виявлення надрукованого тексту та цифр під час сканування або візуалізації документа, такого як юридичний документ або скан книги.

Вилучення форми Form Extraction

Amazon Textract дозволяє автоматично виявляти пари ключ-значення на зображеннях документів, щоб ви могли зберегти внутрішній контекст документа без будь-якого ручного втручання. Пара ключ-значення - це набір пов'язаних елементів даних. Наприклад, у документі поле "Ім'я" буде ключем, а "Джейн" буде значенням. Це дозволяє легко імпортувати вилучені дані в базу даних або надавати їх як змінну додаток. У традиційних рішеннях OCR ключі та значення витягуються як простий текст. Відносини між ними губляться, якщо для кожної форми не написані та не підтримуються жорстко закодовані правила.

Вилучення таблиць Table Extraction

Amazon Textract зберігає склад даних, що зберігаються в таблицях під час вилучення. Це корисно для документів, які в основному складаються зі структурованих даних, таких як фінансові звіти або медичні записи, які мають імена стовпців у верхньому рядку таблиці, за якими слідують рядки окремих записів. Ви можете використовувати цю функцію для автоматичного завантаження вилучених даних у базу даних із використанням попередньо визначеної схеми. Наприклад, рядки номерів та кількостей позицій у звіті про інвентаризацію зберігають свій зв'язок, що дозволяє легко збільшувати підсумкові суми елементів у додатку для керування запасами.

Bounding Boxes

Всі вилучені дані повертаються з прямокутними координатами, що обмежують, які являють собою багатокутний кадр, який охоплює кожен фрагмент ідентифікованих даних, таких як одне слово, рядок, таблиця або навіть окремі осередки в таблиці. Це корисно для перевірки, звідки з'явилося слово або число у вихідному документі, або для посібника користувача в системах пошуку документів, які повертають відскановані копії оригінальних документів як результат пошуку. Наприклад, при пошуку в медичних записах даних історії хвороби користувачі можуть легко записати вихідний документ і швидко взяти до уваги результати майбутніх пошуків.

Adjustable Confidence Thresholds

Коли інформація отримується з документів, Amazon Textract повертає показник достовірності для всього, що він ідентифікує, щоб ви могли приймати обґрунтовані рішення про те, як ви хочете використовувати результати. Наприклад, якщо ви отримуєте інформацію з податкових документів і хочете забезпечити високу точність, ви можете створити бізнес-логіку, щоб помітити будь-яку витягнуту інформацію з показником достовірності нижче 95% для перевірки людиною. Однак ви можете вибрати нижчу граничну значення для інших типів документів, у яких наслідки помилки практично не мають негативних наслідків, таких як обробка резюме або оцифрування архівних документів.

Amazon оголосила про доступність хмарного ІІ-інструменту AmazonTextract для обробки тексту.

Можливості Amazon Textract

Оптичне розпізнавання символів (OCR) Optical Character Recognition (OCR)

Вилучення форми Form Extraction

Вилучення таблиць Table Extraction

Bounding Boxes

Adjustable Confidence Thresholds

Інші новини