Categories
Machine Learning

Hồi quy tuyến tính

Hôm nay:

  • Phân loại tạo sinh – phân biệt
  • Hồi quy tuyến tính
  • Phân tách lỗi thành thiên vị, phương sai, không thể tránh khỏi

Bài đọc:

  • Mitchell: “Naïve Bayes and Logistic Regression” (bắt buộc)
  • Bài viết của Ng và Jordan (tùy chọn)
  • Bishop, Ch 9.1, 9.2 (tùy chọn)

Hồi quy logistic

  • Xem xét việc học f: X → Y, trong đó
    • X là một vectơ của các đặc trưng có giá trị thực, < X… Xn >
    • Y là boolean
    • giả sử tất cả Xi đều độc lập có điều kiện với Y
    • mô hình P(Xi | Y = yk) có dạng Gaussian N(µiki)
    • mô hình P(Y) có dạng Bernoulli (π)
  • Khi đó, P(Y|X) có dạng này và chúng ta có thể ước tính trực tiếp WHÌNH 7.1. Hồi quy logistic.
  • Hơn nữa, điều tương tự cũng đúng nếu Xi là boolean
    • cố gắng chứng minh điều đó với chính bạn
  • Huấn luyện bằng ước tính tăng dần độ dốc của w’s (không có giả định!)

MLE so với MAP

  • Ước tính hợp lý có điều kiện tối đaHÌNH 7.2. MLE so với MAP.
  • Tối đa ước tính hậu nghiệm với W~N(0,σI) trước đóHÌNH 7.2. MLE so với MAP.

Ước tính MAP và Chính quy hóa

  • Tối đa ước tính hậu nghiệm với W~N(0,σI) trước đóHÌNH 7.3. Ước tính MAP và Chính quy hóa.

được gọi là thuật ngữ “chính quy hóa

  • giúp giảm khớp quá mức, đặc biệt là khi dữ liệu đào tạo thưa thớt
  • giữ trọng số gần bằng 0 (nếu P(W) bằng 0 có nghĩa là Gaussian trước đó), hoặc bất cứ điều gì gợi ý trước
  • được sử dụng rất thường xuyên trong hồi quy logistic

Phân loại tạo sinh so với phân loại phân biệt

Bộ phân loại đào tạo liên quan đến việc ước tính f: X → Y, hoặc P(Y|X)

Generative classifiers (ví dụ: Naïve Bayes)

  • Giả sử một dạng hàm nào đó cho P(Y), P(X|Y)
  • Ước tính các tham số của P(X|Y), P(Y) trực tiếp từ dữ liệu huấn luyện
  • Sử dụng quy tắc Bayes để tính toán P(Y=y |X= x)

Phân loại phân biệt (ví dụ: Hồi quy logistic)

  • Giả sử một dạng hàm nào đó cho P(Y|X)
  • Ước tính các tham số của P(Y|X) trực tiếp từ dữ liệu huấn luyện
  • LƯU Ý: mặc dù nguồn gốc của dạng P(Y|X) đã tạo ra các giả định kiểu GNB, quy trình đào tạo cho Hồi quy logistic thì không!

Sử dụng Naïve Bayes hay Logisitic Regression?

Xem xét

  • Tính hạn chế của các giả định mô hình hóa (chúng ta có thể học tốt như thế nào với dữ liệu vô hạn?)
  • Tốc độ hội tụ (về số lượng dữ liệu đào tạo) đối với giả thuyết tiệm cận (dữ liệu vô hạn)
    • tức là, đường cong học tập

Naïve Bayes vs Hồi quy logistic

Xem xét Y boolean, Xi liên tục, X=<X… Xn>

Số tham số:

  • NB: 4n +1
  • LR: n+1HÌNH 7.4. Naïve Bayes vs Hồi quy logistic.

Phương pháp ước tính:

  • Ước tính tham số NB không liên kết
  • Ước tính tham số LR được liên kết

Gaussian Naïve Bayes – Big Picture

HÌNH 7.5. Gaussian Naïve Bayes – Big Picture.

giả định P(Y=1) = 0,5

Gaussian Naïve Bayes – Big Picture

HÌNH 7.6. Gaussian Naïve Bayes – Big Picture.

giả định P(Y=1) = 0,5

G.Naïve Bayes so với Hồi quy logistic

[Ng & Jordan, 2002]

Nhớ lại hai giả định dẫn xuất dạng LR từ GNBayes:

  1. Xi độc lập có điều kiện với Xk cho trước Y
  2. P(Xi | Y = yk) = N(µiki), ← not N(µikik)

Xem xét ba phương pháp học:

  • GNB (chỉ giả định 1)
  • GNB2 (giả định 1 và 2)
  • LR

Phương pháp nào hoạt động tốt hơn nếu chúng ta có dữ liệu đào tạo vô hạn và…

  • Cả (1) và (2) đều thỏa mãn
  • Cả (1) và (2) đều không thỏa mãn
  • (1) thỏa mãn nhưng không (2)

G.Naïve Bayes vs. Logistic Regression

[Ng & Jordan, 2002]

Nhớ lại hai giả định dẫn xuất dạng LR từ GNBayes:

  1. Xi độc lập có điều kiện với Xk cho trước Y
  2. P(Xi | Y = yk) = N(µiki), ← not N(µikik)

Xem xét ba phương pháp học:

  • GNB (chỉ giả định 1) — bề mặt quyết định có thể phi tuyến tính
  • GNB2 (giả định 1 và 2) – bề mặt quyết định tuyến tính
  • LR — bề mặt quyết định tuyến tính, được huấn luyện khác

Phương pháp nào hoạt động tốt hơn nếu chúng ta có dữ liệu đào tạo vô hạn và…

  • Cả (1) và (2) đều thỏa mãn: LR = GNB2 = GNB
  • Cả (1) và (2) đều không thỏa mãn: LR > GNB2, GNB>GNB2
  • (1) thỏa mãn nhưng không (2): GNB > LR, LR > GNB2

G.Naïve Bayes vs. Logistic Regression

[Ng & Jordan, 2002]

Điều gì sẽ xảy ra nếu chúng ta chỉ có dữ liệu huấn luyện hữu hạn?

Chúng hội tụ ở các tốc độ khác nhau đối với lỗi tiệm cận (∞ dữ liệu) của chúng

Gọi εA,n tham khảo lỗi dự kiến của thuật toán học A sau n mẫu đào tạo

Gọi d là số đặc trưng: <X… Xd>

HÌNH 7.7. G.Naïve Bayes vs. Logistic Regression.

Vì vậy, GNB yêu cầu n = O(log d) để hội tụ, nhưng LR yêu cầu n = O(d)

Một số thử nghiệm từ bộ dữ liệu UCI

[Ng & Jordan, 2002]

HÌNH 7.8. Một số thử nghiệm từ bộ dữ liệu UCI.

HÌNH 7.8. Một số thử nghiệm từ bộ dữ liệu UCI.

Naïve Bayes so với hồi quy logistic

điểm mấu chốt:

GNB2 và LR đều sử dụng các bề mặt quyết định tuyến tính, GNB không cần

Với dữ liệu vô hạn, LR tốt hơn GNB2 vì quy trình đào tạo không đưa ra giả định 1 hoặc 2 (mặc dù việc tạo ra dạng P(Y|X) của chúng ta đã làm).

Nhưng GNB2 hội tụ nhanh hơn với lỗi tiệm cận có lẽ kém chính xác hơn

Và GNB vừa sai lệch hơn (giả định 1) vừa ít hơn (không có giả định 2) so với LR, do đó cái này có thể đánh bại cái kia

Tốc độ hội tụ: hồi quy logistic

[Ng & Jordan, 2002]

Giả sử hDis,m là hồi quy logistic được đào tạo trên m mẫu trong n chiều. Thì, với xác suất cao:

HÌNH 7.9. Tốc độ hội tụ: hồi quy logistic.

Hàm ý: nếu chúng ta muốnHÌNH 7.9. Tốc độ hội tụ: hồi quy logistic. một hằng số ε0 nào đó, chỉ cần chọn thứ tự n mẫu là đủ

→ Hội tụ với bộ phân loại tiệm cận của nó, theo thứ tự n mẫu (kết quả theo sau giới hạn rủi ro cấu trúc của Vapnik, cộng với thực tế là VCDim của n chiều phân tách tuyến tính là n )

Tốc độ hội tụ: naïve Bayes parameters

[Ng & Jordan, 2002]

HÌNH 7.10. Tốc độ hội tụ: naïve Bayes parameters.

Những điều bạn nên biết:

  • Hồi quy logistic
    • Dạng hàm tuân theo các giả định của Naïve Bayes
      • Đối với Gaussian Naïve Bayes giả định phương sai σi,k = σi
      • Đối với Naïve Bayes có giá trị rời rạc cũng vậy
    • Nhưng quy trình đào tạo chọn tham số mà không có sự độc lập có điều kiện giả định
    • Huấn luyện MCLE: chọn W để tối đa hóa P(Y | X, W)
    • Huấn luyện MAP: chọn W để tối đa hóa P(W | X,Y)
      • chính quy hóa: ví dụ: P(W) ~ N(0,σ)
      • giúp giảm tình trạng quá khớp
  • Tăng/giảm độ dốc
    • Cách tiếp cận chung khi không có giải pháp dạng đóng cho MLE, MAP
  • Phân loại tạo sinh so với phân biệt
    • Sự đánh đổi giữa thiên vị và phương sai

Hôm nay:

  • Hồi quy tuyến tính
  • Phân tách sai số thành thiên vị, phương sai, không thể tránh khỏi

Bài đọc:

  • Mitchell: “Naïve Bayes and Logistic Regression” (xem trang web của lớp)
  • Bài viết của Ng và Jordan (trang web của lớp)
  • Bishop, Ch 9.1, 9.2

Hồi quy

Cho đến nay, chúng ta quan tâm đến việc học P(Y|X) trong đó Y có các giá trị rời rạc (được gọi là ‘phân loại’)

Nếu Y liên tục thì sao? (được gọi là ‘hồi quy’)

  • dự đoán trọng lượng từ giới tính, chiều cao, tuổi, …
  • dự đoán giá cổ phiếu Google hôm nay từ giá Google, Yahoo, MSFT ngày hôm qua
  • dự đoán cường độ từng pixel trong hình ảnh camera hiện tại của rô-bốt, từ hình ảnh trước đó và hành động trước đó

Regression

Mong để học f:X→Y, trong đó Y thực, cho trước {<x1,y1>…<xn,yn>}

Cách tiếp cận:

  1. chọn một số dạng tham số hóa cho P(Y|X; θ) ( θ là vectơ tham số)
  2. rút ra thuật toán học dưới dạng ước tính MCLE hoặc MAP cho θ

1. Chọn dạng tham số hóa cho P(Y|X; θ)

HÌNH 7.11. 1.	Chọn dạng tham số hóa cho P(Y|X; θ).

Giả sử Y là f(X) xác định nào đó, cộng với nhiễu ngẫu nhiên

HÌNH 7.11. 1.	Chọn dạng tham số hóa cho P(Y|X; θ).trong đóHÌNH 7.11. 1.	Chọn dạng tham số hóa cho P(Y|X; θ).

Do đó Y là biến ngẫu nhiên tuân theo phân phối

HÌNH 7.11. 1.	Chọn dạng tham số hóa cho P(Y|X; θ).

và giá trị kỳ vọng của y đối với bất kỳ x đã cho nào là f(x)

1. Chọn dạng tham số hóa cho P(Y|X; θ)

HÌNH 7.12. 1.	Chọn dạng tham số hóa cho P(Y|X; θ).

Giả sử Y là f(X) xác định nào đó, cộng với nhiễu ngẫu nhiên

HÌNH 7.12. 1.	Chọn dạng tham số hóa cho P(Y|X; θ).trong đóHÌNH 7.12. 1.	Chọn dạng tham số hóa cho P(Y|X; θ).

Do đó Y là biến ngẫu nhiên tuân theo phân phối

HÌNH 7.12. 1.	Chọn dạng tham số hóa cho P(Y|X; θ).

và giá trị kỳ vọng của y đối với bất kỳ x đã cho nào là f(x)HÌNH 7.12. 1.	Chọn dạng tham số hóa cho P(Y|X; θ).

xem xét hồi quy tuyến tính

HÌNH 7.13. xem xét hồi quy tuyến tính.

HÌNH 7.13. xem xét hồi quy tuyến tính.

Ví dụ: giả sử f(x) là hàm tuyến tính của x

HÌNH 7.13. xem xét hồi quy tuyến tính.

Ký hiệu: để làm cho các tham số của chúng ta rõ ràng, hãy viết

HÌNH 7.13. xem xét hồi quy tuyến tính.

Đào tạo hồi quy tuyến tính

HÌNH 7.14. Đào tạo hồi quy tuyến tính.

HÌNH 7.14. Đào tạo hồi quy tuyến tính.

Làm thế nào chúng ta có thể học W từ dữ liệu đào tạo?

Đào tạo hồi quy tuyến tính

HÌNH 7.15. Đào tạo hồi quy tuyến tính.

HÌNH 7.15. Đào tạo hồi quy tuyến tính.

Làm thế nào chúng ta có thể học W từ dữ liệu đào tạo?

Học ước tính hợp lý có điều kiện tối đa!

HÌNH 7.15. Đào tạo hồi quy tuyến tính.

trong đó

HÌNH 7.15. Đào tạo hồi quy tuyến tính.

Đào tạo hồi quy tuyến tính

HÌNH 7.16. Đào tạo hồi quy tuyến tính.

Học ước tính hợp lý có điều kiện tối đa

HÌNH 7.16. Đào tạo hồi quy tuyến tính.

trong đó

HÌNH 7.16. Đào tạo hồi quy tuyến tính.

Đào tạo hồi quy tuyến tính

HÌNH 7.17. Đào tạo hồi quy tuyến tính.

Học ước tính hợp lý có điều kiện tối đa

HÌNH 7.17. Đào tạo hồi quy tuyến tính.

trong đó

HÌNH 7.17. Đào tạo hồi quy tuyến tính.

Đào tạo hồi quy tuyến tính

HÌNH 7.18. Đào tạo hồi quy tuyến tính.

Học ước tính hợp lý có điều kiện tối đa

HÌNH 7.18. Đào tạo hồi quy tuyến tính.

trong đó

HÌNH 7.18. Đào tạo hồi quy tuyến tính.

vì thế:

HÌNH 7.18. Đào tạo hồi quy tuyến tính.

Đào tạo hồi quy tuyến tính

HÌNH 7.19. Đào tạo hồi quy tuyến tính.

Học ước tính hợp lý có điều kiện tối đa

HÌNH 7.19. Đào tạo hồi quy tuyến tính.

Chúng ta có thể rút ra quy tắc giảm độ dốc cho đào tạo không?

HÌNH 7.19. Đào tạo hồi quy tuyến tính.

Làm thế nào về MAP thay vì ước tính MLE?

HÌNH 7.20. Làm thế nào về MAP thay vì ước tính MLE?.

Hồi quy – Những điều bạn nên biết

Theo giả định chungHÌNH 7.21. Hồi quy – Những điều bạn nên biết.

  1. MLE tương ứng với việc giảm thiểu tổng sai số dự đoán bình phương
  2. Ước tính MAP giảm thiểu SSE cộng với tổng trọng số bình phương
  3. Một lần nữa, việc học là một vấn đề tối ưu hóa khi chúng ta chọn hàm mục tiêu
    • tối đa hóa hợp lý dữ liệu
    • tối đa hóa xác suất hậu nghiệm của W
  4. Một lần nữa, chúng ta có thể sử dụng độ dốc giảm dần như một thuật toán học chung
    • miễn là hàm mục tiêu fn của chúng ta khả vi đối với W
    • mặc dù chúng ta có thể học các tối ưu cục bộ
  5. Hầu như chúng ta không nói gì ở đây yêu cầu f(x) tuyến tính theo x

Phân tích thiên vị/phương sai của sai số

Thiên vị và phương sai

được cung cấp một số công cụ ước tính Y cho một số tham số θ, chúng ta định nghĩa

thiên vị của công cụ ước tính Y = HÌNH 7.22. Thiên vị và phương sai.

phương sai của công cụ ước tính Y =HÌNH 7.22. Thiên vị và phương sai.

ví dụ: xác định Y là công cụ ước tính MLE cho xác suất mặt ngửa, dựa trên n lần tung đồng xu độc lập

thiên vị hay không thiên vị?

phương sai giảm khi sqrt(1/n)

Bias – Phân rã phương sai của lỗi

Đọc: Bishop chương 9.1, 9.2

  • Xem xét bài toán hồi quy đơn giản f:X→YHÌNH 7.23. Bias – Phân rã phương sai của lỗi.

Nguồn gốc của sai số dự đoán là gì?

HÌNH 7.23. Bias – Phân rã phương sai của lỗi.

Nguồn lỗi

  • Điều gì sẽ xảy ra nếu chúng ta có bộ học hoàn hảo, dữ liệu vô hạn?
    • Tìm được h(x) thỏa mãn h(x)=f(x)
    • Vẫn còn sai sót, khó tránh khỏi

σ2

Nguồn lỗi

  • Nếu chúng ta chỉ có n mẫu huấn luyện thì sao?
  • Lỗi dự kiến ​​​​của chúng ta là gì
    • Đã thực hiện các tập huấn luyện ngẫu nhiên có kích thước n, được rút ra từ phân phối D=p(x,y)

HÌNH 7.24. Nguồn lỗi.

Nguồn lỗi

HÌNH 7.25. Nguồn lỗi.

Leave a Reply

Your email address will not be published. Required fields are marked *