Categories
Software Architecture

Phân tích AWS 16: AWS Lake Formation

AWS Lake Formation là một dịch vụ giúp bạn dễ dàng thiết lập một hồ dữ liệu an toàn trong nhiều ngày. Hồ dữ liệu là một kho lưu trữ tập trung, được quản lý và bảo mật để lưu trữ tất cả dữ liệu của bạn, cả ở dạng ban đầu và
được chuẩn bị để phân tích. Một hồ dữ liệu cho phép bạn chia nhỏ các ngăn chứa dữ liệu và kết hợp các loại phân tích khác nhau để có được thông tin chi tiết và hướng dẫn các quyết định kinh doanh tốt hơn.

Tuy nhiên, việc thiết lập và quản lý các hồ dữ liệu ngày nay bao gồm rất nhiều công việc thủ công, phức tạp và tốn thời gian. Công việc này bao gồm tải dữ liệu từ các nguồn khác nhau, theo dõi các luồng dữ liệu đó, thiết lập phân vùng, bật mã hóa và quản lý khóa, xác định các công việc chuyển đổi và giám sát hoạt động của chúng, tổ chức lại dữ liệu thành định dạng cột, cấu hình cài đặt kiểm soát truy cập, loại bỏ trùng lặp dữ liệu thừa , khớp các bản ghi được liên kết, cấp quyền truy cập vào tập dữ liệu và kiểm tra quyền truy cập theo thời gian.

Tạo một hồ dữ liệu với Lake Formation đơn giản như xác định nơi dữ liệu của bạn cư trú và những chính sách bảo mật và quyền truy cập dữ liệu nào bạn muốn áp dụng. Sau đó, Lake Formation thu thập và lập danh mục dữ liệu từ cơ sở dữ liệu và lưu trữ đối tượng, di chuyển dữ liệu vào hồ dữ liệu Amazon S3 mới của bạn, làm sạch và phân loại dữ liệu bằng cách sử dụng thuật toán máy học, đồng thời đảm bảo quyền truy cập vào dữ liệu nhạy cảm của bạn. Sau đó, người dùng của bạn có thể truy cập danh mục dữ liệu tập trung mô tả các tập dữ liệu có sẵn và cách sử dụng thích hợp của chúng. Sau đó, người dùng của bạn tận dụng các tập dữ liệu này với sự lựa chọn của họ về các dịch vụ phân tích và máy học, như Amazon EMR cho Apache Spark, Amazon Redshift, Amazon Athena, SageMaker và Amazon QuickSight.

Leave a Reply

Your email address will not be published. Required fields are marked *