Categories
Software Architecture

Máy học AWS 21: Amazon Textract

Amazon Textract là dịch vụ tự động trích xuất văn bản và dữ liệu từ các tài liệu được quét. Amazon Textract vượt ra ngoài nhận dạng ký tự quang học đơn giản (OCR) để còn xác định nội dung của trường trong các biểu mẫu và thông tin được lưu trữ trong bảng biểu.

Nhiều công ty ngày nay trích xuất dữ liệu từ các tài liệu và biểu mẫu thông qua việc nhập dữ liệu thủ công chậm và tốn kém hoặc thông qua phần mềm nhận dạng ký tự quang học (OCR) đơn giản mà rất khó để
tùy chỉnh. Các quy tắc và quy trình công việc cho mỗi tài liệu và biểu mẫu thường cần được mã hóa cứng và cập nhật với mỗi lần thay đổi biểu mẫu hoặc khi xử lý nhiều biểu mẫu. Nếu biểu mẫu lệch khỏi các quy tắc, đầu ra thường bị xáo trộn và không sử dụng được.

Amazon Textract vượt qua những thách thức này bằng cách sử dụng máy học để “đọc” ngay lập tức hầu như bất kỳ loại tài liệu nào nhằm trích xuất chính xác văn bản và dữ liệu mà không cần bất kỳ nỗ lực thủ công hoặc mã tùy chỉnh nào. Với Textract, bạn có thể nhanh chóng tự động hóa quy trình công việc tài liệu, cho phép bạn xử lý hàng triệu trang tài liệu trong vài giờ. Sau khi thông tin được nắm bắt, bạn có thể thực hiện hành động đối với thông tin đó trong các ứng dụng kinh doanh của mình để bắt đầu các bước tiếp theo cho hồ sơ xin vay hoặc xử lý yêu cầu y tế.
Ngoài ra, bạn có thể tạo chỉ mục tìm kiếm thông minh, xây dựng quy trình công việc phê duyệt tự động và duy trì tốt hơn việc tuân thủ các quy tắc lưu trữ tài liệu bằng cách bổ sung dữ liệu có thể yêu cầu biên tập lại.

Leave a Reply

Your email address will not be published. Required fields are marked *