Thêm Thông Minh Vào Ứng Dụng Của Bạn Với Azure 2: Dịch Vụ Nhận Thức

Dịch vụ nhận thức

Dịch vụ nhận thức cung cấp các thuật toán học máy do Microsoft tạo ra và dữ liệu dưới dạng dịch vụ. Đối với hầu hết các dịch vụ, Microsoft cũng đã cung cấp dữ liệu để đào tạo các thuật toán đó.

Đối với một số dịch vụ, bạn có thể sử dụng dữ liệu tùy chỉnh của riêng mình để đào tạo các thuật toán.

Dịch vụ nhận thức cung cấp một cách đặc biệt dễ dàng để kết hợp học máy và AI vào ứng dụng của bạn — chỉ bằng cách gọi các API.

Bảng 4-2 cho thấy những API nào hiện có sẵn. Lưu ý rằng danh sách này tiếp tục tăng lên.

Tất cả các dịch vụ đều có cấp độ miễn phí mà bạn có thể sử dụng để bắt đầu.

Mỗi danh mục trong bảng chứa nhiều dịch vụ mà bạn có thể sử dụng bằng cách gọi một API. Một số danh mục chứa các dịch vụ tùy chỉnh, bao gồm Thị giác tùy chỉnh (Custom Vision), Hiểu ngôn ngữ (Language Understanding) và Tìm kiếm tùy chỉnh Bing (Bing Custom Search). Các dịch vụ tùy chỉnh này cung cấp các thuật toán học máy được định cấu hình trước, giống như các dịch vụ khác và chúng cũng cho phép bạn sử dụng dữ liệu của riêng mình để đào tạo mô hình.

Ngoài các dịch vụ này, Công nghệ Nghiên cứu Nhận thức (Cognitive Research Technologies) cung cấp các dịch vụ bổ sung. Điều này chứa các API và SDK sáng tạo dành cho các nhà nghiên cứu và nhà phát triển có cái nhìn sớm về các khả năng nhận thức mới nổi. Một dịch vụ thử nghiệm như vậy là Project Gesture, cho phép bạn phát hiện các cử chỉ như vẫy tay và đưa chúng vào trải nghiệm người dùng của bạn.

Chúng ta hãy xem xét kỹ hơn một số Dịch vụ nhận thức.

Thực hành với AI

Bảng 4-2: Xem nhanh các API dịch vụ nhận thức

Các dịch vụ và API trong Dịch vụ nhận thức và các danh mục của chúng

* Tất cả các dịch vụ đều có cấp độ miễn phí mà bạn có thể sử dụng để bắt đầu.

Hiểu ngôn ngữ (Language Understanding)

Sử dụng dịch vụ Hiểu ngôn ngữ (LUIS) để hiểu người dùng đang nói gì với bạn trên mạng xã hội, trong chatbots hoặc trong các ứng dụng hỗ trợ giọng nói. Ví dụ: bạn có thể đặt chuyến bay hoặc lên lịch họp bằng LUIS.

Để sử dụng dịch vụ Hiểu ngôn ngữ, hãy cung cấp cho dịch vụ này những ví dụ về những gì bạn muốn dịch vụ hiểu, chẳng hạn như “Đặt chuyến bay đến Seattle” hoặc “Lên lịch cuộc họp lúc 1 giờ chiều với Bob” và cho biết những từ bạn đang tìm kiếm. Trong những ví dụ này, bạn có thể đang tìm điểm đến của chuyến bay (Seattle), thời gian và người cho cuộc họp (1 giờ chiều và Bob).

Sau khi dịch vụ Hiểu ngôn ngữ tạo ra một mô hình học máy dựa trên các ví dụ mà bạn đưa vào, nó có thể trích xuất thông tin từ ngôn ngữ tự nhiên mà người dùng đưa vào.

Tạo một ứng dụng mới trong cổng LUIS

Thị giác tùy chỉnh (Custom Vision)

Với dịch vụ Custom Vision, bạn có thể phát hiện thông tin trong hình ảnh dựa trên dữ liệu đào tạo của riêng bạn. Custom Vision hoạt động theo cách tương tự như các Dịch vụ nhận thức khác ở chỗ nó đi kèm với một thuật toán học máy được xác định trước. Tất cả những gì bạn phải làm là cung cấp dữ liệu cho dịch vụ.

Giả sử bạn muốn tạo một mô hình có thể phát hiện các loại mây mưa trên bầu trời, chẳng hạn như mây tích và địa tầng. Để tạo mô hình này, bạn tải hình ảnh của các loại đám mây khác nhau lên cổng Custom Vision và cung cấp cho chúng thẻ, thẻ này cho dịch vụ biết cách đào tạo mô hình. Trong ví dụ này, bạn sẽ gắn thẻ một hình ảnh bằng “tích” hoặc “địa tầng”.

Khi bạn đã tải lên đủ hình ảnh, bạn có thể đào tạo mô hình của mình. Bạn tải lên càng nhiều hình ảnh có gắn thẻ và càng đào tạo nhiều thì mô hình của bạn càng chính xác.

Khi bạn có một mô hình hoạt động tốt, bạn có thể bắt đầu sử dụng nó bằng cách thực hiện các lệnh gọi tới API Custom Vision và cung cấp cho nó những hình ảnh mới. Khi bạn tải lên một hình ảnh mới, dịch vụ sẽ cho bạn biết liệu nó có nhận dạng được hình ảnh đó hay không dựa trên những hình ảnh đã được tải lên.

Hình 4-1 cho thấy một ví dụ về điểm cuối API trông như thế nào:

Hình 4-1: Một ví dụ về điểm cuối API

Sử dụng dịch vụ Custom Vision để phát hiện thông tin dựa trên mô hình của riêng bạn đã đủ ấn tượng, nhưng Custom Vision còn có thể làm được nhiều hơn thế. Mô hình bạn tạo khi đào tạo dịch vụ Thị giác tùy chỉnh với dữ liệu của mình có thể được triển khai cho “biên thông minh” (intelligent edge). Điều này có nghĩa là mô hình và API có thể chạy ở đâu đó ngoài đám mây, chẳng hạn như trên máy chủ tại chỗ trong container Docker hoặc trên một thiết bị khác, chẳng hạn như điện thoại của bạn.

Điều này mang lại sự linh hoạt tuyệt vời vì bạn không cần kết nối internet đang hoạt động để sử dụng các khả năng của dịch vụ Custom Vision; bạn cũng có thể chạy nó cục bộ, điều này mang lại hiệu suất tuyệt vời. Ngoài ra, mô hình bạn chạy trên cạnh không lớn lắm — chỉ xấp xỉ hàng chục megabyte — vì bạn chỉ triển khai mô hình và API, không phải dữ liệu đào tạo.

Tạo dự án Custom Vision của riêng bạn

Trình lập chỉ mục video (Video Indexer)

Các dịch vụ Video Indexer phân tích video và audio file bạn tải lên nó. Dịch vụ Nhận thức này là một phần của Dịch vụ Truyền thông Azure (Azure Media Services). Nó cung cấp một thuật toán học máy được xác định trước và bạn cung cấp dữ liệu.

Ngoài nhiều tính năng khác, Trình lập chỉ mục video có các khả năng sau:

Nó tạo bản ghi của văn bản trong video. Bạn có thể tinh chỉnh bản ghi theo cách thủ công và đào tạo Trình lập chỉ mục video để nhận ra các thuật ngữ trong ngành, chẳng hạn như “DevOps”.
Nó theo dõi khuôn mặt và xác định ai đang ở trong video và ở những điểm nào. Video Indexer có khả năng tương tự đối với âm thanh, nó nhận biết ai đang nói và khi nào.
Nó nhận dạng văn bản trực quan trong video, chẳng hạn như văn bản trên trang chiếu và tạo thành một phần của bản ghi.
Nó thực hiện phân tích cảm xúc, xác định thời điểm điều gì đó tích cực, tiêu cực hoặc trung tính được nói hoặc hiển thị.

Khi bề rộng của các chức năng này thể hiện, Trình lập chỉ mục video kết hợp nhiều Dịch vụ nhận thức, bao gồm Nhận dạng giọng nói thành văn bản (Speech to Text) và nhận dạng người nói (Speaker Recognition). Tích lũy, các dịch vụ này cung cấp các khả năng mạnh mẽ giúp nội dung dễ khám phá, dễ truy cập và có giá trị hơn.

Bạn có thể tải các tệp phương tiện lên Trình lập chỉ mục video bằng cách sử dụng cổng Trình lập chỉ mục video hoặc API. Hình 4-2 cho thấy kết quả của một video đã được tải lên dịch vụ Trình lập chỉ mục video:

Hình 4-2: Thể hiện kết quả trên cổng Video Indexer

Như trong hình, Trình lập chỉ mục video đã tạo bản ghi âm thanh trong video. Bảng điểm có thể được chỉnh sửa và thậm chí dịch sang các ngôn ngữ khác. Bạn cũng có thể thấy rằng Trình lập chỉ mục video đã nhận dạng văn bản trên trang trình bày phía sau người nói và đánh dấu nó là “OCR”. Bạn có thể bỏ qua văn bản đó bằng cách nhấp vào nó. Video Indexer cung cấp chức năng này cho các ứng dụng riêng lẻ bằng cách nhúng tiện ích Thông tin chi tiết về nhận thức (Cognitive Insights widget).

Tải video đầu tiên của bạn lên Trình lập chỉ mục video

QnA Maker

QnA Maker cung cấp một cách dễ dàng để tạo lớp trò chuyện trên dữ liệu hiện có, chẳng hạn như các trang câu hỏi thường gặp (FAQ), trang web hỗ trợ và hướng dẫn sử dụng sản phẩm. QnA Maker giúp bạn phân tích và trích xuất thông tin và chuyển nó thành các cặp câu hỏi và câu trả lời có thể dễ dàng quản lý. Nói một cách đơn giản, QnA Maker cho phép bạn xây dựng các ứng dụng có thể cung cấp thông tin cho người dùng của bạn theo cách trò chuyện.

Với QnA Maker, bạn có thể tạo và quản lý cơ sở kiến thức bằng cách sử dụng Cổng thông tin QnA Maker hoặc API REST dễ sử dụng . Chúng tôi đã đơn giản hóa quy trình tạo bot bằng cách cho phép bạn dễ dàng tạo bot từ cơ sở kiến thức của mình — mà không cần bất kỳ mã hoặc thay đổi cài đặt nào. Tham khảo liên kết này để biết thêm chi tiết: Tạo một bot QnA. Tất nhiên, bạn cũng có thể sử dụng QnA Maker để tạo một bot bằng Dịch vụ Azure Bot và tăng cường cho bot QnA của mình bằng cách thêm dịch vụ Hiểu ngôn ngữ. Để thêm cá tính, bạn có thể thêm chat chit (add chit-chat) vào bot của mình và trả lời các tình huống trò chuyện nhỏ thường gặp.

Bạn chỉ trả tiền cho dịch vụ lưu trữ của QnA Maker chứ không phải trả cho số lần dịch vụ kết quả được người dùng truy vấn.

Tạo dịch vụ dựa trên kiến thức QnA Maker của bạn

Cá nhân hóa (Personalizer)

Personalizer giúp ứng dụng của bạn chọn một mục nội dung tốt nhất để hiển thị cho từng người dùng. Nó chọn mục tốt nhất, từ các mục nội dung, dựa trên thông tin thời gian thực tập thể mà bạn cung cấp liên quan đến nội dung và ngữ cảnh.

Nội dung có thể là bất kỳ đơn vị thông tin nào, chẳng hạn như văn bản, hình ảnh, URL hoặc email mà bạn muốn chọn để hiển thị cho người dùng của mình. Điều này giúp tăng khả năng sử dụng và sự hài lòng của người dùng với các khả năng dựa trên học tập củng cố.

Máy phát hiện dị thường (Anomaly Detector)

Anomaly Detector cho phép bạn dễ dàng nhúng khả năng phát hiện bất thường vào ứng dụng của mình để người dùng có thể nhanh chóng xác định sự cố. Điều này cho phép bạn theo dõi và phát hiện các bất thường trong dữ liệu chuỗi thời gian của mình bằng máy học.

Việc sử dụng Trình phát hiện bất thường không yêu cầu bất kỳ kinh nghiệm trước nào về học máy và API RESTful cho phép bạn dễ dàng tích hợp dịch vụ vào các ứng dụng và quy trình của mình.