Amazon объявила об общедоступности облачного ИИ-инструмента AmazonTextract для обработки текста.

30 мая 2019

Amazon объявила об общедоступности облачного ИИ-инструмента AmazonTextract для обработки текста.

Amazon запустила облачный ИИ-инструмент Textract для обработки текста. Он доступен пользователям платформы AWS и может обрабатывать миллионы страниц всего за несколько часов.

Amazon Textract - это сервис, который автоматически извлекает текст и данные из отсканированных документов. Amazon Textract выходит за рамки простого оптического распознавания символов (OCR) и позволяет идентифицировать содержимое полей в формах и информацию, хранящуюся в таблицах.

Многие компании сегодня извлекают данные из документов и форм с помощью ручного ввода данных, который является медленным и дорогим, или с помощью программного обеспечения для простого оптического распознавания (OCR), которое требует ручной настройки или настройки. Правила и рабочие процессы для каждого документа и формы часто требуют жесткого кодирования и обновления при каждом изменении формы или при работе с несколькими формами. Если форма отклоняется от правил, выходные данные часто шифруются и не могут быть использованы.

Amazon Textract преодолевает эти проблемы, используя машинное обучение для мгновенного «чтения» практически любого типа документа, чтобы точно извлечь текст и данные без необходимости каких-либо ручных усилий или специального кода. С Textract вы можете быстро автоматизировать рабочие процессы документов, позволяя обрабатывать миллионы страниц документов за часы. После того как информация получена, вы можете предпринять действия с ней в своих бизнес-приложениях, чтобы инициировать следующие шаги для заявки на кредит или обработки медицинских требований. Кроме того, вы можете создавать интеллектуальные поисковые индексы, создавать автоматизированные рабочие процессы утверждения и лучше поддерживать соответствие правилам архивирования документов, помечая данные, которые могут потребовать редактирования.

Возможности Amazon Textract

Оптическое распознавание символов (OCR) Optical Character Recognition (OCR)

Amazon Textract использует технологию оптического распознавания символов (OCR) для автоматического обнаружения напечатанного текста и цифр при сканировании или визуализации документа, такого как юридический документ или скан книги.

Извлечение формы Form Extraction

Amazon Textract позволяет автоматически обнаруживать пары ключ-значение на изображениях документов, чтобы вы могли сохранить внутренний контекст документа без какого-либо ручного вмешательства. Пара ключ-значение - это набор связанных элементов данных. Например, в документе поле «Имя» будет ключом, а «Джейн» будет значением. Это позволяет легко импортировать извлеченные данные в базу данных или предоставлять их в качестве переменной в приложение. В традиционных решениях OCR ключи и значения извлекаются как простой текст. Отношения между ними теряются, если для каждой формы не написаны и не поддерживаются жестко закодированные правила.

Извлечение таблиц Table Extraction

Amazon Textract сохраняет состав данных, хранящихся в таблицах во время извлечения. Это полезно для документов, которые в основном состоят из структурированных данных, таких как финансовые отчеты или медицинские записи, у которых есть имена столбцов в верхней строке таблицы, за которыми следуют строки отдельных записей. Вы можете использовать эту функцию для автоматической загрузки извлеченных данных в базу данных с использованием предварительно определенной схемы. Например, строки номеров и количеств позиций в отчете об инвентаризации сохраняют свою связь, что позволяет легко увеличивать итоговые суммы элементов в приложении для управления запасами.

Bounding Boxes

Все извлеченные данные возвращаются с ограничивающими прямоугольными координатами, которые представляют собой многоугольный фрейм, который охватывает каждый фрагмент идентифицированных данных, таких как одно слово, строка, таблица или даже отдельные ячейки в таблице. Это полезно для возможности проверять, откуда появилось слово или число в исходном документе, или для руководства пользователя в системах поиска документов, которые возвращают отсканированные копии оригинальных документов в качестве результата поиска. Например, при поиске в медицинских записях данных истории болезни пользователи могут легко записать исходный документ и быстро принять к сведению результаты будущих поисков.

Adjustable Confidence Thresholds

Когда информация извлекается из документов, Amazon Textract возвращает показатель достоверности для всего, что он идентифицирует, чтобы вы могли принимать обоснованные решения о том, как вы хотите использовать результаты. Например, если вы извлекаете информацию из налоговых документов и хотите обеспечить высокую точность, вы можете создать бизнес-логику, чтобы пометить любую извлеченную информацию с показателем достоверности ниже 95% для проверки человеком. Однако вы можете выбрать более низкое пороговое значение для других типов документов, в которых последствия ошибки практически не имеют негативных последствий, таких как обработка резюме или оцифровка архивных документов.

Amazon объявила об общедоступности облачного ИИ-инструмента AmazonTextract для обработки текста.

Возможности Amazon Textract

Оптическое распознавание символов (OCR) Optical Character Recognition (OCR)

Извлечение формы Form Extraction

Извлечение таблиц Table Extraction

Bounding Boxes

Adjustable Confidence Thresholds

Другие новости