AWS Inferentia là chip suy luận máy học được thiết kế để mang lại hiệu suất cao với chi phí thấp. AWS Inferentia sẽ hỗ trợ khung học tập sâu TensorFlow, Apache MXNet và PyTorch, cũng như các mô hình sử dụng định dạng ONNX.
Đưa ra dự đoán bằng cách sử dụng mô hình học máy được đào tạo – một quy trình được gọi là suy luận – có thể thúc đẩy tới 90% chi phí tính toán của ứng dụng. Sử dụng Amazon Elastic Inference, các nhà phát triển có thể giảm tới 75% chi phí suy luận bằng cách gắn tăng tốc suy luận do GPU hỗ trợ vào các phiên bản Amazon EC2 và SageMaker. Tuy nhiên, một số khối lượng công việc suy luận yêu cầu toàn bộ GPU hoặc có yêu cầu về độ trễ cực thấp. Để giải quyết thách thức này với chi phí thấp cần một chip suy luận chuyên dụng.
AWS Inferentia cung cấp thông lượng cao, hiệu suất suy luận độ trễ thấp với chi phí cực kỳ thấp. Mỗi chip cung cấp hàng trăm TOPS (tera hoạt động mỗi giây) thông lượng suy luận để cho phép các mô hình phức tạp đưa ra dự đoán nhanh chóng. Để có hiệu suất cao hơn nữa, nhiều chip AWS Inferentia có thể được sử dụng cùng nhau để thúc đẩy hàng nghìn TOPS thông lượng. AWS Inferentia sẽ có sẵn để sử dụng với SageMaker, Amazon EC2 và Amazon Elastic Inference.