Categories
Software Architecture

Máy học AWS 5: Amazon Elastic Inference

Amazon Elastic Inference cho phép bạn đính kèm khả năng tăng tốc chi phí thấp sử dụng GPU vào các phiên bản Amazon EC2 và Amazon SageMaker để giảm tới 75% chi phí chạy suy luận học sâu. Amazon Elastic Inference hỗ trợ các mô hình TensorFlow, Apache MXNet, PyTorch và ONNX.

Trong hầu hết các ứng dụng học sâu, đưa ra dự đoán bằng mô hình được đào tạo — một quá trình được gọi là suy luận
—Có thể thúc đẩy tới 90% chi phí tính toán của ứng dụng do hai yếu tố. Đầu tiên, các phiên bản GPU độc lập được thiết kế để đào tạo mô hình và thường quá khổ để suy luận. Trong khi các công việc đào tạo xử lý hàng loạt hàng trăm mẫu dữ liệu song song, hầu hết các suy luận xảy ra trên một đầu vào duy nhất trong thời gian thực chỉ tiêu tốn một lượng nhỏ tính toán GPU. Ngay cả khi tải cao nhất, khả năng tính toán của GPU có thể không được sử dụng hết, điều này gây lãng phí và tốn kém. Thứ hai, các mô hình khác nhau cần lượng tài nguyên GPU, CPU và bộ nhớ khác nhau. Việc chọn loại phiên bản GPU đủ lớn để đáp ứng các yêu cầu của tài nguyên ít được sử dụng nhất thường dẫn đến việc sử dụng kém các tài nguyên khác và chi phí cao.

Amazon Elastic Inference giải quyết những vấn đề này bằng cách cho phép bạn đính kèm lượng tăng tốc suy luận do GPU hỗ trợ phù hợp vào bất kỳ loại phiên bản EC2 hoặc SageMaker nào mà không có thay đổi mã. Với Amazon Elastic Inference, giờ đây bạn có thể chọn loại phiên bản phù hợp nhất với nhu cầu CPU và bộ nhớ tổng thể của ứng dụng của bạn, sau đó cấu hình riêng mức tăng tốc suy luận mà bạn cần để sử dụng tài nguyên một cách hợp lý và để giảm chi phí chạy sự suy luận.

Leave a Reply

Your email address will not be published. Required fields are marked *