Categories
Software Architecture

Kết Nối Ứng Dụng Của Bạn Với Dữ Liệu Azure 6: Giải Pháp Phân Tích Dữ Liệu Azure

Giải pháp phân tích dữ liệu Azure

Gần như quan trọng như việc lưu trữ dữ liệu là phân tích nó để có được thông tin chi tiết. Azure cung cấp nhiều dịch vụ cho các tình huống phân tích dữ liệu, cho phép bạn nhận được thông tin chi tiết có giá trị và có thể hành động từ dữ liệu của mình — bất kể dữ liệu đó lớn, nhỏ hay phức tạp.

Nhà máy dữ liệu (Data Factory)

Di chuyển và chuyển đổi dữ liệu không phải là một nhiệm vụ tầm thường, nhưng Data Factory có thể giúp bạn làm điều đó. Trong Data Factory, bạn có thể tạo một đường dẫn toàn diện thực hiện quá trình trích xuất /extraction, chuyển đổi /transformation và tải /loading (ETL) hoàn chỉnh của mình.

Data Factory có thể di chuyển dữ liệu từ tại chỗ lên đám mây, trong đám mây hoặc tại chỗ một cách đáng tin cậy — không quan trọng nguồn dữ liệu của bạn ở đâu. Nhà máy dữ liệu cũng cung cấp nhiều kết nối mà bạn có thể sử dụng để dễ dàng kết nối với nguồn dữ liệu của bạn, bao gồm cả SQL Server, Azure Cosmos DB, Oracle, và nhiều hơn nữa.

Khi di chuyển dữ liệu, bạn cũng có thể lọc dữ liệu trước khi gửi đến đích cuối, dọn dẹp hoặc chuyển đổi dữ liệu bằng một hoạt động trong đường dẫn, chẳng hạn như hoạt động Apache Spark. Ngoài ra, Data Factory cho phép bạn lập lịch và giám sát các đường ống, cũng như nâng và chuyển các gói Dịch vụ Tích hợp Máy chủ SQL (SSIS) của bạn (SQL Server Integration Services) lên đám mây.

Tạo một nhà máy dữ liệu bằng Azure Portal

Dịch vụ phân tích Azure (Azure Analysis Services)

Với Dịch vụ phân tích Azure, bạn có thể tạo mô hình ngữ nghĩa của dữ liệu mà người dùng có thể truy cập trực tiếp bằng các công cụ trực quan hóa như Power BI. Được xây dựng dựa trên các công cụ Dịch vụ Phân tích SQL Server chạy tại chỗ với SQL Server, dịch vụ này hiện chạy được quản lý trên đám mây. Điều này có nghĩa là dịch vụ có thể mở rộng và dữ liệu được lưu trữ dự phòng — và khi không sử dụng, bạn có thể tạm dừng dịch vụ để giảm thiểu chi phí.

Với Dịch vụ phân tích Azure, bạn có thể cung cấp dữ liệu được mô hình hóa trực tiếp cho người dùng theo cách rất hiệu quả. Người dùng có thể truy vấn hàng triệu bản ghi trong vài giây vì mô hình nằm hoàn toàn trong bộ nhớ và được làm mới định kỳ.

Bạn có thể lấy dữ liệu vào mô hình ngữ nghĩa từ mọi nơi, kể cả từ các nguồn dữ liệu trên đám mây và tại chỗ. Bạn có thể sử dụng lưu trữ Azure Blob, Cơ sở dữ liệu Azure SQL, Kho dữ liệu Azure SQL và nhiều dịch vụ khác làm nguồn dữ liệu cho mô hình. Bạn cũng có thể sử dụng các nguồn dữ liệu, bao gồm Active Directory tại chỗ, cơ sở dữ liệu Access và cơ sở dữ liệu Oracle.

Tạo máy chủ Dịch vụ phân tích Azure bằng cổng Azure

Phân tích hồ dữ liệu Azure (Azure Data Lake Analytics)

Một dịch vụ Azure khác để thực hiện các tác vụ phân tích dữ liệu là Azure Data Lake Analytics. Với dịch vụ này, bạn có thể phân tích, xử lý và chuyển đổi một lượng lớn dữ liệu có thể có từ Azure Storage và Azure Data Lake Storage.

Azure Data Lake Analytics cho phép bạn tạo và gửi các công việc truy vấn dữ liệu, phân tích hoặc chuyển đổi dữ liệu đó. Bạn có thể viết các công việc này bằng U-SQL, một ngôn ngữ giống SQL và mở rộng U-SQL với Microsoft R và Python.

Bạn trả tiền cho các công việc mà bạn gửi và chạy, và dịch vụ sẽ tự động thay đổi quy mô tùy thuộc vào sức mạnh mà công việc cần. Azure Data Lake Analytics thường được sử dụng cho các công việc phân tích kéo dài dựa trên một lượng lớn dữ liệu.

Tạo tập lệnh U-SQL đầu tiên của bạn thông qua cổng Azure

Phân tích luồng Azure (Azure Stream Analytics)

Bạn có thể sử dụng dịch vụ Azure Stream Analytics để phân tích, truy vấn và lọc dữ liệu phát trực tuyến theo thời gian thực. Ví dụ: khi bạn nhận được một luồng dữ liệu nhiệt độ từ thiết bị IoT, nó sẽ cho bạn biết nhiệt độ bên ngoài ấm như thế nào. Nó có thể cung cấp cùng một nhiệt độ mỗi giây trong một giờ cho đến khi nhiệt độ thay đổi, nhưng bạn chỉ quan tâm đến những thay đổi. Azure Stream Analytics có thể truy vấn dữ liệu trong thời gian thực và chỉ lưu trữ dữ liệu khác biệt trong Cơ sở dữ liệu Azure SQL.

Stream Analytics có thể lấy dữ liệu của nó từ nhiều dịch vụ, bao gồm lưu trữ Azure Blob, Trung tâm sự kiện Azure (Azure Event Hubs) và Trung tâm IoT Azure (Azure IoT Hub). Bạn có thể phân tích dữ liệu bằng cách sử dụng ngôn ngữ đơn giản giống như SQL hoặc mã tùy chỉnh. Sau khi truy vấn và lọc luồng dữ liệu, Stream Analytics có thể xuất kết quả cho nhiều dịch vụ Azure, bao gồm Cơ sở dữ liệu Azure SQL, Lưu trữ Azure và Trung tâm sự kiện Azure.

Tạo công việc Phân tích luồng bằng cổng Azure

Thông tin chi tiết về chuỗi thời gian Azure (Azure Time Series Insights)

Bạn có thể sử dụng Thông tin chi tiết về chuỗi thời gian Azure để có được thông tin chi tiết nhanh chóng về lượng lớn dữ liệu kiểu IoT thường. Dịch vụ này lấy dữ liệu từ Trung tâm sự kiện Azure, Trung tâm IoT và các đầu vào tham chiếu của riêng bạn và nó lưu giữ dữ liệu đó trong một khoảng thời gian nhất định.

Với Azure Time Series Insights, người dùng có thể truy vấn và phân tích dữ liệu thông qua một công cụ trực quan hóa ngay khi nó xuất hiện. Time Series Insights không chỉ phân tích dữ liệu mà còn nhập và lưu giữ dữ liệu đó trong một thời gian. Điều này giống như Dịch vụ Phân tích Azure, nơi dữ liệu nằm trong bộ nhớ trong một mô hình để người dùng truy vấn. Điểm khác biệt chính là Time Series Insights được tối ưu hóa cho IoT và dữ liệu dựa trên thời gian, đồng thời nó chứa công cụ trực quan hóa dữ liệu của riêng mình.

Khám phá môi trường demo Insights chuỗi thời gian từ trình duyệt của bạn

Azure Databricks

Azure Databricks cho phép bạn chạy một cụm Databricks được quản lý và có thể mở rộng trên đám mây. Databricks cung cấp một nền tảng phân tích thống nhất với một loạt các công cụ và khả năng. Trong Databricks, bạn có thể chạy các phiên bản Apache Spark được tối ưu hóa để thực hiện phân tích dữ liệu nâng cao.

Ngoài phân tích dựa trên Spark, Databricks cung cấp sổ ghi chép tương tác và quy trình làm việc tích hợp và không gian làm việc mà bạn có thể sử dụng để cộng tác với toàn bộ nhóm dữ liệu, bao gồm các nhà khoa học dữ liệu, kỹ sư dữ liệu và nhà phân tích kinh doanh — tất cả đều có quyền truy cập vào các công cụ chuyên biệt cho Nhu cầu cụ thể.

Databricks được tích hợp hoàn toàn với Azure Active Directory, cung cấp cho bạn khả năng triển khai bảo mật chi tiết. Với Databricks, bạn có thể thực hiện phân tích dữ liệu dựa trên Spark trên dữ liệu đến từ nhiều nơi khác nhau, bao gồm Azure Storage và Azure Data Lake Storage. Databricks cũng hoạt động với dữ liệu từ Kho dữ liệu Azure SQL, Cơ sở dữ liệu Azure SQL và Cơ sở dữ liệu Azure Cosmos. Ngoài ra, bạn có thể cắm Databricks vào Power BI để tạo và hiển thị các bảng điều khiển mạnh mẽ.

Chạy một công việc Spark trên Azure Databricks bằng Azure Portal

HDInsight

HDInsight là một nền tảng trong Azure mà bạn có thể sử dụng để chạy các dịch vụ phân tích dữ liệu nguồn mở. Bạn cũng có thể sử dụng nó để chạy các cụm công cụ phân tích dữ liệu nguồn mở chuyên biệt mà bạn yêu thích. Lợi thế của việc chạy các công cụ này trong HDInsight là chúng được quản lý, có nghĩa là bạn không phải bảo trì máy ảo hoặc hệ điều hành vá lỗi. Ngoài ra, chúng có thể mở rộng quy mô và dễ dàng kết nối với nhau, các dịch vụ Azure khác cũng như các nguồn và dịch vụ dữ liệu tại chỗ.

Hầu hết các loại cụm phân tích dữ liệu nguồn mở chuyên dụng trong HDInsight sử dụng bộ lưu trữ Azure Blob hoặc Azure Data Lake Storage để truy cập hoặc lưu trữ dữ liệu, vì các dịch vụ này hoạt động với Hệ thống tệp Hadoop.

Bạn có thể chạy các cụm chuyên biệt lớn tiềm năng thuộc nhiều loại khác nhau, chẳng hạn như cụm Apache Hadoop. Điều này cho phép bạn xử lý và phân tích dữ liệu bằng các công cụ Hadoop như Hive, Pig và Oozie.

Bạn cũng có thể tạo một cụm Apache HBase, cụm này cung cấp cơ sở dữ liệu NoSQL rất nhanh. Dữ liệu thực sự nằm trong Azure Storage hoặc Azure Data Lake, nhưng HBase cung cấp một lớp trừu tượng ở trên cùng, lớp này có chức năng riêng và hiệu suất độc đáo.

Bạn có thể tạo một cụm Apache Storm, nhằm mục đích phân tích các luồng dữ liệu, giống như Azure Stream Analytics. Ngoài ra, bạn có thể có một cụm Apache Spark, cung cấp một khuôn khổ để xử lý và phân tích một lượng lớn dữ liệu. HDInsight cũng có thể chạy một cụm cho Máy chủ Học máy của Microsoft /Microsoft Machine Learning Server (trước đây là Máy chủ R của Microsoft). Điều này cho phép bạn chạy các công việc dựa trên R để phân tích dữ liệu.

Cuối cùng, bạn có thể tạo một cụm chạy Apache Kafka, là một hệ thống nhắn tin đăng ký xuất bản được sử dụng để xây dựng các ứng dụng có cơ chế xếp hàng.

Có nhiều loại cụm hơn, cũng như các công cụ mà bạn có thể sử dụng trong các cụm. Bạn có thể thực hiện hầu hết mọi tác vụ phân tích và xử lý dữ liệu với sự kết hợp của các cụm này và tất cả chúng đều chạy được quản lý trên đám mây. Bảng 2-2 có thể giúp bạn chọn các dịch vụ Azure phù hợp để phân tích dữ liệu của bạn.

Trích xuất, chuyển đổi và tải dữ liệu bằng Apache Hive trên HDInsight

Bảng 2.2: Các tùy chọn cụm

Tóm tắt các dịch vụ Azure cho các trường hợp sử dụng dữ liệu khác nhau

Giải pháp phân tích dữ liệu Azure.

* Các dịch vụ có dấu hoa thị có một cấp miễn phí mà bạn có thể sử dụng để bắt đầu miễn phí.

Đọc thêm

Nếu bạn muốn tìm hiểu thêm về dữ liệu và phân tích dữ liệu trong Azure, bạn có thể tải xuống và đọc các tài nguyên miễn phí sau:

Phân tích đám mây với Microsoft Azure

Lộ trình học tập: Lưu trữ dữ liệu trong Azure

Leave a Reply

Your email address will not be published. Required fields are marked *