Nền tảng học sâu – RNNs, CNNs

PHÂN LOẠI PHÂN BIỆT VÀ TẠO SINH

Tạo sinh so với Phân biệt

Phân loại tạo sinh:

– Ví dụ: Naïve Bayes

– Định nghĩa mô hình đồng thời của các quan sát x và nhãn y: p(x, y)

– Học tập tối đa hóa khả năng (đồng thời)

– Sử dụng quy tắc Bayes để phân loại dựa trên hậu nghiệm: p(y|x) = p(x|y)p(y)/p(x)

Phân loại phân biệt:

– Ví dụ: Hồi quy logistic

– Mô hình hóa trực tiếp điều kiện: p(y|x)

– Học tập tối đa hóa khả năng có điều kiện

Tạo sinh so với Phân biệt

Ước lượng MAP và Chính quy hóa

phù hợp với dữ liệu

giữ cho mô hình đơn giản

Ví dụ: Chính quy hóa L2 tương đương với Gaussian tiên nghiệm

Tạo sinh so với Phân biệt

Phân tích mẫu hữu hạn (Ng & Jordan, 2001)

[Giả sử chúng ta đang học từ một tập dữ liệu đào tạo hữu hạn]

Bayes ngây thơ và hồi quy logistic tạo thành một cặp mô hình phân biệt-tạo sinh:

Nếu các giả định của mô hình là đúng: khi lượng dữ liệu đào tạo tăng, Gaussian Naïve Bayes và hồi quy logistic tiếp cận cùng một ranh giới quyết định (tuyến tính)!

Hơn nữa, Gaussian Naïve Bayes là một trình học hiệu quả hơn (yêu cầu ít mẫu hơn) so với Hồi quy logistic

Nếu giả định mô hình không chính xác: Hồi quy logistic có lỗi tiệm cận thấp hơn và hoạt động tốt hơn Gaussian Naïve Bayes

Slide do William Cohen cung cấp

Naïve Bayes đưa ra những giả định mạnh mẽ hơn về dữ liệu nhưng cần ít ví dụ hơn để ước tính các tham số

“Về phân loại phân biệt so với phân loại tạo sinh: ….” Andrew Ng và Michael Jordan, NIPS 2001.

Slide do William Cohen cung cấp

Naïve Bayes so với Logistic Reg.

Đặc trưng

Bayes ngây thơ:

Các đặc trưng x được coi là độc lập có điều kiện với y. (tức là Giả định Bayes ngây thơ)

Hồi quy logistic:

Không có giả định nào được đưa ra về hình dạng của các đặc trưng x. Chúng có thể phụ thuộc và tương quan theo bất kỳ cách nào.

Naïve Bayes so với Logistic Reg.

Học tập (Ước lượng tham số)

Bayes ngây thơ:

Các tham số không phụ thuộc lẫn nhau → Giải pháp dạng đóng cho MLE

Hồi quy logistic:

Các tham số phụ thuộc lẫn nhau → Không có giải pháp dạng đóng – thay vào đó phải sử dụng các kỹ thuật tối ưu hóa lặp lại

Naïve Bayes so với Logistic Reg.

Học tập (Ước tính tham số MAP)

Bayes ngây thơ Bernoulli:

Các tham số là xác suất → tiên nghiệm Beta (thường là) đẩy xác suất cách xa cực trị không / một

Hồi quy logistic:

Các tham số không phải là xác suất → tiên nghiệm Gaussian khuyến khích các tham số gần bằng không

(thực sự đẩy xác suất ra khỏi cực trị 0 / 1)

Naïve Bayes so với Hồi quy logistic

Câu hỏi:

Bạn vừa mới bắt đầu làm việc tại một công ty mới sản xuất những đồng xu lớn một cách buồn cười. Người quản lý của bạn yêu cầu bạn xây dựng một bộ phân loại nhị phân nhận hình ảnh của một đồng xu (trên dây chuyền lắp ráp nhà máy) và dự đoán xem nó có khiếm khuyết hay không.

Bạn sẽ đặt những câu hỏi tiếp theo nào cho quản lý để quyết định giữa việc sử dụng bộ phân loại Naïve Bayes hay Logistic Regression?

Trả lời:

BỨC TRANH TỔNG THỂ

Bức tranh tổng thể ML

Phân loại và hồi quy: Bức tranh toàn cảnh

Truyền ngược và Học sâu

Mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi tiếp mạng (RNN) chỉ đơn giản là các đồ thị tính toán phức tạp (hay còn gọi là hàm giả thuyết hoặc hàm quyết định).

Công thức của chúng ta cũng áp dụng cho các mô hình này và (một lần nữa) dựa vào thuật toán truyền ngược để tính toán độ dốc cần thiết.

KIẾN THỨC NỀN: CÔNG NGHỆ NGÔN NGỮ CỦA CON NGƯỜI

Công nghệ ngôn ngữ của con người

Nhận dạng giọng nói

Dịch máy

기계 번역은 특히 영어와 한국어와 같은 언어 쌍의 경우 매우 어렵습니다.

Tóm tắt

RNN hai chiều

RNN hiện là kiến trúc nền tảng phổ biến trong các phương pháp học sâu để xử lý ngôn ngữ tự nhiên

đầu ra xác suất

các trạng thái ẩn từ phải sang trái

các trạng thái ẩn từ trái sang phải

nhúng từ

KIẾN THỨC NỀN: MÔ HÌNH NGÔN NGỮ N-GRAM

Mô hình ngôn ngữ n-Gram

Mục tiêu: Tạo ra những câu trông thực tế ở ngôn ngữ con người
Ý tưởng chính: điều kiện của n-1 từ cuối cùng để lấy mẫu từ thứ n

Mô hình ngôn ngữ n-Gram

Câu hỏi: Làm thế nào chúng ta có thể xác định phân phối xác suất trên một chuỗi có độ dài T?

Mô hình ngôn ngữ n-Gram

Câu hỏi: Làm thế nào chúng ta có thể xác định phân phối xác suất trên một chuỗi có độ dài T?

Mô hình ngôn ngữ n-Gram

Câu hỏi: Làm thế nào chúng ta có thể xác định phân phối xác suất trên một chuỗi có độ dài T?

Lưu ý: Đây được gọi là mô hình vì chúng ta đã đưa ra một số giả định về số lượng từ trước để điều kiện hóa (tức là chỉ có n-1 từ)

Học mô hình n-Gram

Câu hỏi: Làm thế nào chúng ta học được xác suất cho Mô hình n-Gram?

Học mô hình n-Gram

Câu hỏi: Làm thế nào chúng ta học được xác suất cho Mô hình n-Gram?

Trả lời: Từ dữ liệu! Chỉ cần đếm tần số n-gram

Lấy mẫu từ Mô hình ngôn ngữ

Câu hỏi: Làm thế nào để lấy mẫu từ Mô hình ngôn ngữ?

Trả lời:

Coi mỗi phân phối xác suất như một con xúc xắc có trọng số (50k mặt)
Chọn con xúc xắc tương ứng với p(wt | wt-2, wt-1)
Tung con xúc xắc đó và tạo ra bất kỳ từ wt nào mà nó rơi xuống ngửa lên
Lặp lại

Lấy mẫu từ Mô hình ngôn ngữ

Câu hỏi: Làm thế nào để lấy mẫu từ Mô hình ngôn ngữ?

Trả lời:

Coi mỗi phân phối xác suất như một con xúc xắc có trọng số (50k mặt)
Chọn con xúc xắc tương ứng với p(wt | wt-2, wt-1)
Tung con xúc xắc đó và tạo ra bất kỳ từ wt nào mà nó rơi xuống ngửa lên
Lặp lại

Training Data (Shakespeaere)

I tell you, friends, most charitable care
ave the patricians of you. For your
wants, Your suffering in this dearth,
you may as well Strike at the heaven
with your staves as lift them Against
the Roman state, whose course will on
The way it takes, cracking ten thousand
curbs Of more strong link asunder than
can ever Appear in your impediment.
For the dearth, The gods, not the
patricians, make it, and Your knees to
them, not arms, must help.

5-Gram Model

Approacheth, denay. dungy
Thither! Julius think: grant,–O
Yead linens, sheep’s Ancient,
Agreed: Petrarch plaguy Resolved
pear! observingly honourest
adulteries wherever scabbard
guess; affirmation–his monsieur;
died. jealousy, chequins me.
Daphne building. weakness: sun-
rise, cannot stays carry’t,
unpurposed. prophet-like drink;
back-return ‘gainst surmise
Bridget ships? wane; interim?
She’s striving wet;

MẠNG NƠ-RON HỒI TIẾP (RNN) – MÔ HÌNH NGÔN NGỮ

Mạng nơ-ron hồi tiếp (RNN)

đầu vào: x

đơn vị ẩn: h

đầu ra: y

phi tuyến tính: H

Định nghĩa của RNN:

Quy tắc chuỗi xác suất

Câu hỏi: Làm thế nào chúng ta có thể xác định phân phối xác suất trên một chuỗi có độ dài T?

Lưu ý: Đây được gọi là quy tắc chuỗi vì nó luôn đúng với mọi phân phối xác suất

Mô hình ngôn ngữ RNN

Ý chính:

(1) chuyển đổi tất cả các từ trước đó thành một vectơ có độ dài cố định

(2) định nghĩa phân phối p(wt | fθ(wt-1, …, w1)) có điều kiện trên vectơ

Mô hình ngôn ngữ RNN

Ý chính:

(1) chuyển đổi tất cả các từ trước đó thành một vectơ có độ dài cố định

(2) định nghĩa phân phối p(wt | fθ(wt-1, …, w1)) có điều kiện trên vectơ ht = fθ(wt-1, …, w1)

Mô hình ngôn ngữ RNN

Ý chính:

(1) chuyển đổi tất cả các từ trước đó thành một vectơ có độ dài cố định

(2) định nghĩa phân phối p(wt | fθ(wt-1, …, w1)) có điều kiện trên vectơ ht = fθ(wt-1, …, w1)

Mô hình ngôn ngữ RNN

Ý chính:

(1) chuyển đổi tất cả các từ trước đó thành một vectơ có độ dài cố định

(2) định nghĩa phân phối p(wt | fθ(wt-1, …, w1)) có điều kiện trên vectơ ht = fθ(wt-1, …, w1)

Mô hình ngôn ngữ RNN

Ý chính:

(1) chuyển đổi tất cả các từ trước đó thành một vectơ có độ dài cố định

(2) định nghĩa phân phối p(wt | fθ(wt-1, …, w1)) có điều kiện trên vectơ ht = fθ(wt-1, …, w1)

Mô hình ngôn ngữ RNN

Ý chính:

(1) chuyển đổi tất cả các từ trước đó thành một vectơ có độ dài cố định

(2) định nghĩa phân phối p(wt | fθ(wt-1, …, w1)) có điều kiện trên vectơ ht = fθ(wt-1, …, w1)

Mô hình ngôn ngữ RNN

Ý chính:

(1) chuyển đổi tất cả các từ trước đó thành một vectơ có độ dài cố định

(2) định nghĩa phân phối p(wt | fθ(wt-1, …, w1)) có điều kiện trên vectơ ht = fθ(wt-1, …, w1)

Mô hình ngôn ngữ RNN

Câu hỏi: Làm thế nào chúng ta có thể tạo ra một bản phân phối p(wt|ht) từ ht?

Trả lời:

Ý chính:

(1) chuyển đổi tất cả các từ trước đó thành một vectơ có độ dài cố định

(2) định nghĩa phân phối p(wt | fθ(wt-1, …, w1)) có điều kiện trên vectơ ht = fθ(wt-1, …, w1)

Mô hình ngôn ngữ RNN

Ý chính:

(1) chuyển đổi tất cả các từ trước đó thành một vectơ có độ dài cố định

(2) định nghĩa phân phối p(wt | fθ(wt-1, …, w1)) có điều kiện trên vectơ ht = fθ(wt-1, …, w1)

Mô hình ngôn ngữ RNN

p(w1, w2, w3, … , wT) = p(w1 | h1) p(w2 | h2) … p(w2 | hT)

Lấy mẫu từ Mô hình ngôn ngữ

Câu hỏi: Làm thế nào để lấy mẫu từ Mô hình ngôn ngữ?

Trả lời:

Coi mỗi phân phối xác suất như một con xúc xắc có trọng số (50k mặt)
Chọn con xúc xắc tương ứng với p(wt | wt-2, wt-1)
Tung con xúc xắc đó và tạo ra bất kỳ từ wt nào mà nó rơi xuống ngửa lên
Lặp lại

Cách tiếp cận lấy mẫu tương tự mà chúng ta sử dụng cho Mô hình ngôn ngữ n-Gram cũng áp dụng được ở đây cho một Mô hình ngôn ngữ RNN

Lấy mẫu từ RNN-LM

Đâu mới là Shakespeare thực sự?!

Ví dụ từ http://karpathy.github.io/2015/05/21/rnn-effectiveness/

Lấy mẫu từ RNN-LM

Shakespeare’s As You Like It

VIOLA: Why, Salisbury must find his flesh and thought
That which I am not aps, not a man and in fire, To show
the reining of the raven and the wars To grace my hand
reproach within, and not a fair are hand, That Caesar and
my goodly father’s world; When I was heaven of
presence and our fleets, We spare with hours, but cut thy
council I am great, Murdered and by thy master’s ready
there My power to give thee but so much as hell: Some
service in the noble bondman here, Would show him to
her wine.

KING LEAR: O, if you were a feeble sight, the courtesy of
your law, Your sight and several breath, will wear the
gods With his heads, and my hands are wonder’d at the
deeds, So drop upon your lordship’s head, and your
opinion Shall be against your honour.

RNN-LM Sample

CHARLES: Marry, do I, sir; and I came to acquaint you
with a matter. I am given, sir, secretly to understand that
your younger brother Orlando hath a disposition to come
in disguised against me to try a fall. To-morrow, sir, I
wrestle for my credit; and he that escapes me without
some broken limb shall acquit him well. Your brother is
but young and tender; and, for your love, I would be
loath to foil him, as I must, for my own honour, if he
come in: therefore, out of my love to you, I came hither
to acquaint you withal, that either you might stay him
from his intendment or brook such disgrace well as he
shall run into, in that it is a thing of his own search and
altogether against my will.

TOUCHSTONE: For my part, I had rather bear with you
than bear you; yet I should bear no cross if I did bear you,
for I think you have no money in your purse.

Ví dụ từ http://karpathy.github.io/2015/05/21/rnn-effectiveness/

Lấy mẫu từ RNN-LM

RNN-LM Sample

Shakespeare’s As You Like It

TOUCHSTONE: For my part, I had rather bear with you
than bear you; yet I should bear no cross if I did bear you,
for I think you have no money in your purse.

Ví dụ từ http://karpathy.github.io/2015/05/21/rnn-effectiveness/

Lấy mẫu từ RNN-LM

Đâu mới là Shakespeare thực sự?!

Ví dụ từ http://karpathy.github.io/2015/05/21/rnn-effectiveness/

MÔ HÌNH TRÌNH TỰ ĐẾN TRÌNH TỰ

Mô hình trình tự đến trình tự

Nhận dạng giọng nói

Dịch máy

기계 번역은 특히 영어와 한국어와 같은 언어 쌍의 경우 매우 어렵습니다.

Tóm tắt

Mô hình trình tự đến trình tự

Bây giờ giả sử bạn muốn tạo ra một chuỗi có điều kiện trên một đầu vào khác

Ý chính:

Sử dụng mô hình mã hóa (encoder) để tạo ra một vector biểu diễn của đầu vào (input)
Đưa dữ liệu đầu ra của bộ mã hóa (encoder) vào bộ giải mã (decoder) sẽ tạo ra đầu ra (output)

Ứng dụng:

translation: Spanish → English
summarization: article → summary
speech recognition: speech signal → transcription

KIẾN THỨC NỀN: THỊ GIÁC MÁY TÍNH

Ví dụ: Phân loại hình ảnh

Cuộc thi ImageNet LSVRC-2011:

– Bộ dữ liệu: 1,2 triệu hình ảnh được gắn nhãn, 1000 lớp

– Nhiệm vụ: Cho một hình ảnh mới, gắn nhãn cho nó bằng lớp đúng

– Bài toán phân loại đa lớp

Ví dụ từ http://image-net.org/

ImageNet

Kỹ thuật trích xuất đặc trưng cho CV

Phát hiện biên (Canny)

Phát hiện góc (Harris)

Biến đổi đặc trưng bất biến tỷ lệ (SIFT)

Số liệu từ http://opencv.org

Hình từ Lowe (1999) và Lowe (2004)

Ví dụ: Phân loại hình ảnh

CNN để phân loại hình ảnh

(Krizhevsky, Sutskever & Hinton, 2012)

Lỗi 15,3% trong cuộc thi ImageNet LSVRC-2012

Hình ảnh đầu vào (điểm ảnh)

Năm lớp tích chập (với max-pooling)
Ba lớp được kết nối đầy đủ

1000 cách softmax

CNNs cho Nhận dạng hình ảnh

Slide từ Kaiming He

Truyền ngược và Học sâu

Công thức của chúng ta cũng áp dụng cho các mô hình này và (một lần nữa) dựa vào thuật toán truyền ngược để tính toán độ dốc cần thiết.

TÍCH CHẬP

Tích chập là gì?

Ý tưởng cơ bản:

– Chọn một ma trận 3×3 F có trọng số

– Trượt nó qua một hình ảnh và tính “tích vô hướng” (sự tương đồng) của F và trường tương ứng của hình ảnh, và thay thế điểm ảnh ở giữa trường bằng kết quả của phép toán tích vô hướng

Điểm chính:

– Các phép tích chập khác nhau trích xuất các loại “đặc trưng” cấp thấp khác nhau từ một hình ảnh

– Tất cả những gì chúng ta cần thay đổi để tạo ra những đặc trưng khác nhau này là trọng số của F