Categories
Machine Learning

Xác suất và ước lượng

Hôm nay:

  • Quy tắc Bayes
  • Ước tính tham số
    • MLE
    • MAP

Bài đọc:

Xem lại xác suất

  • Bishop Ch. 1 đến 1.2.3
  • Bishop, Ch. 2 đến 2.2
  • Hướng dẫn trực tuyến của Andrew Moore

một số slide này được lấy từ William Cohen, Andrew Moore, Aarti Singh, Eric Xing, Carlos Guestrin. – Cảm ơn!

Thông báo

  • Lớp học đang sử dụng Piazza để đặt câu hỏi/thảo luận về bài tập về nhà, v.v.
    • xem trang web của lớp để biết địa chỉ Piazza
    • http://www.cs.cmu.edu/~ninamf/courses/601sp15/
  • Ôn tập thứ Năm từ 7-8 giờ tối, Wean 5409
    • video để ôn tập trong tương lai (trang web của lớp)
  • HW1 đã được chấp nhận cho đến 5 giờ chiều Chủ Nhật để lấy toàn bộ tín dụng
  • HW2 sẽ ra mắt hôm nay trên trang web của lớp, sau 1 tuần nữa
  • HW3 sẽ liên quan đến lập trình (trong Octave )

Quy tắc Bayes

Quy tắc Bayes

P(A|B) = P(B|A) * P(A)⁄P(B)

chúng ta gọi P(A) là “tiên nghiệm”

và P(A|B) là “hậu nghiệm”

HÌNH 3.1. Bayes, Thomas (1763).

Bayes, Thomas (1763) Một bài luận hướng tới việc giải quyết một vấn đề trong học thuyết về cơ hội. Philosophical Transactions of the Royal Society of London, 53:370-418

…không có nghĩa là chỉ là một suy đoán gây tò mò trong học thuyết về cơ hội, mà cần phải được giải đáp để có một nền tảng chắc chắn cho mọi lập luận của chúng ta liên quan đến các sự kiện trong quá khứ, và điều gì là rất có thể là sau này….

cần thiết được xem xét bởi bất kỳ điều gì có thể giải thích rõ ràng về sức mạnh của suy luận loại suy hoặc quy nạp

Các dạng khác của Quy tắc Bayes

P(A|B) = P(B|A) * P(A)⁄P(B)

P(A|B) = P(BA)P(A)⁄P(BA)P(A) + P(B|~ A)P(~ A)

P(A|BX) = P(BA∧ X)P(A∧ X)⁄P(B∧ X)

Áp dụng Quy tắc Bayes

P(|B) = P(BA)P(A)⁄P(BA)P(A) + P(B|~ A)P(~ A)

A = bạn bị cúm, B = bạn vừa ho

Giả sử:

P(A) = 0,05

P(B|A) = 0,80

P(B| ~A) = 0,20

P(cúm | ho) = P(A|B) là gì?

tất cả những điều này có liên quan gì đến phép tính xấp xỉ hàm?

thay vì F: X →Y, hãy học P(Y | X)

Phân phối đồng thời

Công thức để tạo phân phối đồng thời của M biến:

Ví dụ: Các biến Boolean A, B, C

HÌNH 3.2. Phân phối đồng thời.

[A. Moore]

Phân phối đồng thời

Công thức để thực hiện phân phối đồng thời của M biến:

  1. Lập bảng chân lý liệt kê tất cả các tổ hợp giá trị (M biến Boolean → 2M hàng).

Ví dụ: Các biến Boolean A, B, C

HÌNH 3.3. Phân phối đồng thời.

[A. Moore]

Phân phối đồng thời

Công thức để thực hiện phân phối đồng thời của M biến:

  1. Lập bảng chân lý liệt kê tất cả các tổ hợp giá trị (M biến Boolean → 2M hàng).
  2. Đối với mỗi sự kết hợp của các giá trị, hãy cho biết mức độ nó có thể xảy ra.

Ví dụ: Các biến Boolean A, B, C

HÌNH 3.4. Phân phối đồng thời.

[A. Moore]

Phân phối đồng thời

Công thức để thực hiện phân phối đồng thời của M biến:

  1. Lập bảng chân lý liệt kê tất cả các tổ hợp giá trị (M biến Boolean → 2M hàng).
  2. Đối với mỗi sự kết hợp của các giá trị, hãy cho biết mức độ nó có thể xảy ra.
  3. Nếu bạn tin vào các tiên đề xác suất, thì các xác suất đó phải có tổng bằng 1.

Ví dụ: Các biến Boolean A, B, C

HÌNH 3.5. Phân phối đồng thời.

[A. Moore]

Sử dụng Phân phối đồng thời

Một khi bạn có JD , bạn có thể yêu cầu xác suất của bất kỳ biểu thức logic nào liên quan đến các biến này

HÌNH 3.6. Sử dụng Phân phối đồng thời.

P(E) = ∑rows matching EP(row)

[A. Moore]

Sử dụng đồng thời

HÌNH 3.7. Sử dụng đồng thời.

P(E) = ∑rows matching EP(row)

P(Nam Nghèo) = 0,4654

[A. Moore]

Sử dụng đồng thời

HÌNH 3.8. Sử dụng đồng thời.

P(E) = ∑rows matching EP(row)

P(Nghèo) = 0,7604

[A. Moore]

Suy luận với đồng thời

HÌNH 3.9. Suy luận với đồng thời.

P(E1E2 ) = P(E1 ∧ E2 )⁄P(E2 ) = ∑rows matching E1 and E2P(row)⁄∑rows matching E2P(row)

P(Nam | Nghèo) = 0,4654 / 0,7604 = 0,612

[A. Moore]

Học và Phân phối đồng thời

HÌNH 3.10. Học và Phân phối đồng thời.

Giả sử chúng ta muốn học hàm f: <G, H> → W

Tương đương, P(W | G, H)

Giải pháp: học phân phối đồng thời từ dữ liệu, tính P(W | G, H)

ví dụ: P(W=giàu | G = nữ, H = 40,5- ) = 

[A. Moore]

nghe giống như giải pháp để học F: X →Y, hay P(Y | X).

Chúng ta làm xong chưa?

nghe giống như giải pháp cho việc học F: X →Y, hoặc P(Y | X).

Vấn đề chính: học P(Y|X) có thể yêu cầu nhiều dữ liệu hơn chúng ta có

xem xét việc học Joint Dist. với 100 thuộc tính

số hàng trong bảng này?

số người trên trái đất?

phần của các hàng có 0 ví dụ đào tạo?

phải làm gì?

  1. Thông minh về cách chúng ta ước tính xác suất từ ​​dữ liệu thưa thớt
    • ước tính khả năng tối đa
    • ước tính hậu nghiệm tối đa
  2. Thông minh về cách biểu diễn các phân phối đồng thời
    • Mạng Bayes, mô hình đồ họa

1. Hãy thông minh về cách chúng ta ước tính xác suất

Ước tính Xác suất của mặt ngửa

HÌNH 3.11. Ước tính Xác suất của mặt ngửa.

X=1  X=0

HÌNH 3.11. Ước tính Xác suất của mặt ngửa.

Ước tính θ = P(X=1)

HÌNH 3.12. Ước tính θ = P(X=1).

X=1  X=0

Kiểm tra A:

100 lần lật: 51 mặt ngửa (X=1), 49 mặt sấp (X=0)

Bài kiểm tra B:

3 lần lật: 2 ngửa (X=1), 1 sấp (X=0)

Ước tính θ = P(X=1)

HÌNH 3.13. Ước tính θ = P(X=1).

X=1  X=0

Trường hợp C: (học trực tuyến)

  • tiếp tục lật, muốn thuật toán học đơn đưa ra ước tính hợp lý sau mỗi lần lật

Nguyên tắc ước tính xác suất

Nguyên tắc 1 (khả năng xảy ra cực đại):

  • chọn tham số θ tối đa hóa P(dữ liệu | θ)
  • ví dụ:HÌNH 3.14. Nguyên tắc ước tính xác suất.

Nguyên tắc 2 (tối đa một xác suất hậu nghiệm):

  • chọn tham số θ tối đa hóa P(θ | dữ liệu)
  • ví dụ:HÌNH 3.14. Nguyên tắc ước tính xác suất.

Ước tính khả năng xảy ra tối đa

HÌNH 3.15. Ước tính khả năng xảy ra tối đa.

X=1  X=0

P(X=1) = θ  P(X=0) = (1-θ)

Dữ liệu D:

Các lần lật tạo ra dữ liệu D có α1 mặt ngửa, α0 mặt sấp

  • các lần lật độc lập, được phân phối giống hệt các số 1 và 0 (Bernoulli)
  • α1 và α0 là các số đếm tổng các kết quả này (Nhị thức)

HÌNH 3.15. Ước tính khả năng xảy ra tối đa.

Ước tính Khả năng Tối đa cho Θ

HÌNH 3.16. Ước tính Khả năng Tối đa cho Θ.

[C. Guestrin]

HÌNH 3.17. Ước tính Khả năng Tối đa cho Θ.

Tóm tắt: Ước tính Khả năng Tối đa

HÌNH 3.18. Tóm tắt: Ước tính Khả năng Tối đa.

X=1  X=0  

P(X=1) = θ

P(X=0) = 1-θ

(Bernoulli)

HÌNH 3.18. Tóm tắt: Ước tính Khả năng Tối đa.

HÌNH 3.18. Tóm tắt: Ước tính Khả năng Tối đa.

Nguyên tắc ước tính xác suất

Nguyên tắc 1 (khả năng xảy ra tối đa):

  • chọn tham số θ tối đa hóa P(dữ liệu | θ)

Nguyên tắc 2 (tối đa một xác suất hậu nghiệm):

  • chọn tham số θ tối đa hóa P(θ | dữ liệu) = P(dữ liệu | θ) P(θ)⁄P(dữ liệu)

Phân phối trước beta – P(θ)

HÌNH 3.19. Phân phối trước beta – P(θ).

HÌNH 3.19. Phân phối trước beta – P(θ).

Phân phối trước beta – P(θ)

HÌNH 3.20. Phân phối trước beta – P(θ).

HÌNH 3.20. Phân phối trước beta – P(θ).

[C. Guestrin]

HÌNH 3.21. Phân phối trước beta – P(θ).

và ước tính MAP là do đó

HÌNH 3.21. Phân phối trước beta – P(θ).

HÌNH 3.22. Phân phối trước beta – P(θ).

và ước tính MAP là do đó

HÌNH 3.22. Phân phối trước beta – P(θ).

Một số thuật ngữ

  • Hàm khả năng: P(dữ liệu | θ)
  • Trước: P(θ)
  • Sau: P(θ | dữ liệu)
  • Liên hợp trước: P(θ) là liên hợp trước cho hàm khả năng P(dữ liệu | θ) nếu các dạng của P(θ) và P(θ | dữ liệu) giống nhau.

Bạn nên biết

  • Kiến thức cơ bản về xác suất
    • biến ngẫu nhiên, xác suất có điều kiện, …
    • Quy tắc Bayes
    • Phân phối xác suất đồng thời
    • tính toán xác suất từ ​​phân phối đồng thời
  • Ước tính tham số từ dữ liệu
    • ước lượng khả năng tối đa
    • ước lượng hậu nghiệm tối đa
    • phân phối – nhị thức, Beta, Dirichlet, …
    • tiên nghiệm liên hợp

Các slide phụ

Biến cố độc lập

  • Định nghĩa: hai biến cố A và B độc lập nếu P(A ^ B)=P(A)*P(B)
  • Trực giác: biết A không cho ta biết gì về giá trị của B (và ngược lại)

Picture “A độc lập với B”

Giá trị kỳ vọng

Cho một biến ngẫu nhiên rời rạc X, giá trị kỳ vọng của X, được viết E[X] là

HÌNH 3.23. Giá trị kỳ vọng.

Thí dụ:

HÌNH 3.23. Giá trị kỳ vọng.

Giá trị kỳ vọng

Cho biến ngẫu nhiên rời rạc X, giá trị kỳ vọng của X, được viết E[X] là

HÌNH 3.24. Giá trị kỳ vọng.

Chúng ta cũng có thể nói về giá trị kỳ vọng của các hàm X

HÌNH 3.24. Giá trị kỳ vọng.

Hiệp phương sai

Cho hai rv rời rạc X và Y, chúng ta định nghĩa hiệp phương sai của X và Y là

HÌNH 3.25. Hiệp phương sai.

ví dụ: X=giới tính, Y=lượt chơiBóng đá

hoặc X=giới tính, Y=thuận tay trái

Nhớ lại:

HÌNH 3.25. Hiệp phương sai.

Leave a Reply

Your email address will not be published. Required fields are marked *