Categories
AI & Machine Learning

Học bán giám sát

Bài đọc tham khảo

Machine Learning 10-701 (Semi-supervised learning in SVMs-Principal Component Analysis)

Machine Learning 10-701 (EM for Bayes Nets-Co-Training for semi-supervised learning)

Thuật Toán Self-Training Và Co-Training Ứng Dụng Trong Phân Lớp Văn Bản (Trần Thị Oanh)

Bài đọc:

  • Học bán giám sát. Bách khoa toàn thư về học máy. Jerry Zhu, 2010
  • Kết hợp dữ liệu được gắn nhãn và không được gắn nhãn với đồng đào tạo. Avrim Blum, Tom Mitchell. COLT 1998.

Học tập được giám sát đầy đủ

HÌNH 19.1. Học tập được giám sát đầy đủ.

HÌNH 19.1. Học tập được giám sát đầy đủ.

HÌNH 19.1. Học tập được giám sát đầy đủ.

Thuật toán học tập

Chuyên gia / Oracle

Nguồn dữ liệu

Đầu ra Alg.

Phân phối D trên X

c* : X → Y

(x1,c*(x1)),…, (xm,c*(xm))

h : X → Y

Các mẫu được gắn nhãn

Học có giám sát hoàn toàn

HÌNH 19.2. Học có giám sát hoàn toàn.

Thuật toán học

Chuyên gia / Oracle

Nguồn dữ liệu

Alg.outputs

Phân phối D trên X

c* : X → Y

(x1,c*(x1)),…, (xm,c*(xm))

h : X → Y

Các mẫu được gắn nhãn

xi được lấy i.i.d từ D, yi = c(xi)

Mục tiêu: h có lỗi nhỏ hơn D.

Tự động tạo các quy tắc hoạt động tốt trên dữ liệu được quan sát.

  • Ví dụ: Naïve Bayes, hồi quy logistic, SVM, Adaboost, v.v.

Độ tin cậy cho hiệu quả của quy tắc đối với dữ liệu trong tương lai.

  • Thứ nguyên VC, độ phức tạp của Rademacher, giới hạn dựa trên lề, v.v.

Các ứng dụng hiện đại: lượng lớn dữ liệu thô.

Chỉ một phần rất nhỏ có thể được chú thích bởi các chuyên gia con người.

HÌNH 19.3. Mô hình cổ điển Ngày nay Không đủ.

Trình tự protein

HÌNH 19.3. Mô hình cổ điển Ngày nay Không đủ.

Hàng tỷ trang web

HÌNH 19.3. Mô hình cổ điển Ngày nay Không đủ.

Hình ảnh

Ứng dụng hiện đại: lượng lớn dữ liệu thô.

Các kỹ thuật sử dụng dữ liệu tốt nhất, giảm thiểu nhu cầu can thiệp của chuyên gia/con người.

Các mô hình nơi đã có sự tiến bộ lớn.

  • Học bán giám sát, Học tập tích cực (tương tác).

HÌNH 19.4. ML hiện đại: tiếp cận học tập mới.

Học bán giám sát

HÌNH 19.5. Học bán giám sát.

Thuật toán học

Chuyên gia / Oracle

Nguồn dữ liệu

Thuật toán đưa ra một bộ phân loại

Các mẫu chưa được gắn nhãn

xi được lấy i.i.d từ D, yi = c(xi)

Su={x1, …,xmu} được lấy i.i.d từ D

Mục tiêu: h có sai số nhỏ hơn D.

  • Chủ đề nghiên cứu chính trong ML.
  • Một số phương pháp đã được phát triển để cố gắng sử dụng dữ liệu chưa được gắn nhãn nhằm cải thiện hiệu suất, ví dụ:

– SVM truyền dẫn [Joachims ’99]

– Đồng đào tạo [Blum & Mitchell ’98]

– Các phương pháp dựa trên đồ thị [B&C01], [ZGL03]

Hội thảo [ICML ’03, ICML’ 05, …]

Sách:

  • Học bán giám sát, MIT 2006 O. Chapelle, B. Scholkopf và A. Zien (eds)
  • Giới thiệu về học bán giám sát, Morgan & Claypool, 2009 Zhu & Goldberg
  • Chủ đề nghiên cứu chính trong ML.
  • Một số phương pháp đã được phát triển để cố gắng sử dụng dữ liệu chưa được gắn nhãn nhằm cải thiện hiệu suất, ví dụ:

– SVM truyền dẫn [Joachims ’99]

– Đồng đào tạo [Blum & Mitchell ’98]

– Các phương pháp dựa trên đồ thị [B&C01], [ZGL03]

  • Chủ đề nghiên cứu chính trong ML.
  • Một số phương pháp đã được phát triển để cố gắng sử dụng dữ liệu chưa được gắn nhãn nhằm cải thiện hiệu suất, ví dụ:

– SVM truyền dẫn [Joachims ’99]

– Đồng đào tạo [Blum & Mitchell ’98]

– Các phương pháp dựa trên đồ thị [B&C01], [ZGL03]

Hôm nay: thảo luận về các phương pháp này.

Rất thú vị, tất cả đều khai thác dữ liệu chưa được gắn nhãn theo những cách khác nhau, rất thú vị và sáng tạo.

không truy vấn. Chỉ cần có nhiều dữ liệu bổ sung chưa được gắn nhãn.

Key Insight

SVM bán giám sát [Joachims ’99]

Hàm mục tiêu đi qua các vùng có mật độ thấp (lề lớn).

  • giả sử chúng ta đang tìm kiếm dấu phân cách tuyến tính
  • niềm tin: nên tồn tại một dấu phân cách lớn

HÌNH 19.7. Tính chính quy dựa trên lề.

Chỉ dữ liệu được dán nhãn

SVM truyền dẫn

Máy Vectơ hỗ trợ truyền dẫn

Tối ưu hóa cho dấu phân cách với dữ liệu được gắn nhãnkhông được gắn nhãn có lề lớn. [Joachims ‘99]

Đầu vào: Sl={(x1, y1), …,(xml , yml)}

argminw ||w|| 2 s.t.:

  • yi w ⋅ xi ≥ 1, với mọi i ∈ {1, … ,ml}
  • y^u w ⋅ xu ≥ 1, với mọi u ∈ {1,… ,mu}
  • y^u ∈ {−1, 1} với mọi u ∈ {1,… ,mu}

HÌNH 19.8. Máy Vectơ hỗ trợ truyền dẫn.

Tìm nhãn của mẫu không nhãn và 𝑤 s.t. 𝑤 phân tách cả mẫu có nhãn và không nhãn dữ liệu với lề tối đa.

Máy vectơ hỗ trợ truyền dẫn

Tối ưu hóa cho dấu phân cách với dữ liệu được gắn nhãnkhông được gắn nhãn có lề lớn. [Joachims ’99]

Đầu vào: Sl={(x1, y1), …,(xml , yml)}

  • yi w ⋅ xi ≥ 1-𝜉𝑖, với mọi i ∈ {1, … ,ml}
  • y^u w ⋅ xu ≥ 1 − 𝜉𝑢, với mọi u ∈ {1,… ,mu}
  • y^u ∈ {−1, 1} với mọi u ∈ {1,… ,mu}

HÌNH 19.9. Máy vectơ hỗ trợ truyền dẫn.

Tìm nhãn của mẫu không nhãn và 𝑤 s.t. 𝑤 phân tách cả mẫu có nhãn và không nhãn dữ liệu với lề tối đa.

Máy vectơ hỗ trợ truyền dẫn

Tối ưu hóa cho bộ phân tách với dữ liệu được gắn nhãnkhông được gắn nhãn có lề lớn.

Đầu vào: Sl={(x1, y1), …,(xml , yml)}

  • yi w ⋅ xi ≥ 1-𝜉𝑖, với mọi i ∈ {1, … ,ml}
  • y^u w ⋅ xu ≥ 1 − 𝜉𝑢, với mọi u ∈ {1,… ,mu}
  • y^u ∈ {−1, 1} với mọi u ∈ {1,… ,mu}

NP-hard… .. Chỉ lồi sau khi bạn đoán nhãn… có quá nhiều khả năng đoán…

Máy vectơ hỗ trợ truyền dẫn

Tối ưu hóa cho bộ phân tách với dữ liệu được dán nhãnkhông được dán nhãn lề lớn.

Ý tưởng cấp cao Heuristic (Joachims):

  • Đầu tiên tối đa hóa lề trên các điểm được gắn nhãn
  • Sử dụng điều này để gán nhãn ban đầu cho các điểm chưa được gắn nhãn dựa trên dấu tách này.
  • Hãy thử lật nhãn của các điểm chưa được gắn nhãn để xem liệu làm như vậy có thể tăng lề hay không

Tiếp tục cho đến khi không còn cải tiến nào nữa. Tìm một giải pháp tối ưu cục bộ.

Thử nghiệm [Joachims99]

HÌNH 19.10. Thử nghiệm [Joachims99].

Máy vectơ hỗ trợ truyền dẫn

HÌNH 19.11. Máy vectơ hỗ trợ truyền dẫn.

Tương thích cao

HÌNH 19.11. Máy vectơ hỗ trợ truyền dẫn.

Lề không thỏa mãn

HÌNH 19.11. Máy vectơ hỗ trợ truyền dẫn.

Lề thỏa mãn

Các cụm 1/𝛾2, tất cả các phân vùng có thể phân tách bằng lề lớn

Đồng đào tạo [Blum & Mitchell ’98]

Loại giả định tính chính quy cơ bản khác nhau:

Tính nhất quán hoặc Thỏa thuận giữa các bộ phận

Thỏa thuận giữa hai phần: đồng đào tạo [Blum-Mitchell98].

– các mẫu chứa hai bộ tính năng đầy đủ, x = ⟨ x1, x2

niềm tin: các phần nhất quán, tức là ∃ c1, c2 s.t. c1(x1)=c2(x2)=c*(x)

Ví dụ: nếu chúng ta muốn phân loại các trang web: x = ⟨ x1, x2 ⟩ là trang chủ của giảng viên hay không phải

HÌNH 19.12. Đồng đào tạo: Tự nhất quán.

Ý tưởng: Sử dụng mẫu nhỏ được dán nhãn để học các quy tắc ban đầu.

  • Ví dụ: “cố vấn của tôi” trỏ đến một trang là một dấu hiệu tốt cho thấy đó là trang chủ của khoa.
  • Ví dụ: “Tôi đang giảng dạy” trên một trang là một dấu hiệu tốt cho thấy đó là trang chủ của khoa.

Ý tưởng: Sử dụng dữ liệu chưa được gắn nhãn để lan truyền thông tin đã học.HÌNH 19.13. Đồng đào tạo lặp lại.

HÌNH 19.13. Đồng đào tạo lặp lại.

Ý tưởng: Sử dụng mẫu nhỏ được dán nhãn để học các quy tắc ban đầu.

  • Ví dụ: “cố vấn của tôi” trỏ đến một trang là một dấu hiệu tốt cho thấy đó là trang chủ của khoa.
  • Ví dụ: “Tôi đang giảng dạy” trên một trang là một dấu hiệu tốt cho thấy đó là trang chủ của khoa.

Ý tưởng: Sử dụng dữ liệu chưa được gắn nhãn để lan truyền thông tin đã học.HÌNH 19.14. Đồng đào tạo lặp đi lặp lại.

HÌNH 19.14. Đồng đào tạo lặp đi lặp lại.

Đào tạo 2 bộ phân loại, một bộ phân loại trên mỗi loại thông tin. Sử dụng cái này để giúp đào tạo cái kia.

Hoạt động bằng cách sử dụng dữ liệu chưa được gắn nhãn để lan truyền thông tin đã học.

HÌNH 19.15. Đồng đào tạo lặp lại.

  • Có thuật toán học A1, A2 trên mỗi một trong hai khung nhìn.
  • Sử dụng dữ liệu được dán nhãn để học hai hyp. ban đầu. h1, h2.
  • Xem qua dữ liệu chưa được gắn nhãn để tìm các mẫu trong đó một trong số hi là tự tin nhưng khác thì không.
  • Tự tin đặt nhãn hi cho thuật toán A3-i.

HÌNH 19.16. Ứng dụng gốc: Phân loại trang web.

(chạy mẫu)

HÌNH 19.16. Ứng dụng gốc: Phân loại trang web.

HÌNH 19.17. Đồng đào tạo lặp lại.

Sử dụng dữ liệu được gắn nhãn để học h11 và h21

HÌNH 19.18. Mở rộng, Ví dụ: Khoảng thời gian học tập.

Tính nhất quán: khối lượng xác suất bằng không trong các vùng

Phân phối không mở rộng (không hữu ích)

Phân phối mở rộng

Chúng ta cần những thuộc tính nào để đồng đào tạo hoạt động tốt?

Chúng ta cần các giả định về:

  • phân phối dữ liệu cơ bản
  • các thuật toán học tập ở cả hai phía

[Blum & Mitchell, COLT ’98]

  • Độc lập được gắn nhãn
  • Alg. để học từ nhiễu ngẫu nhiên.

[Balcan, Blum, Yang, NIPS 2004]

  • Mở rộng phân phối.
  • Alg. chỉ để học từ dữ liệu tích cực.

HÌNH 19.19. Đồng đào tạo: Đảm bảo về mặt lý thuyết.

Giả sử ℎ1 là một biến dự báo ít hữu ích nếu

Pr [ℎ1 (𝑥) = 1 |𝑐1 (𝑥) = 1] > Pr [ℎ1 (𝑥) = 1 |𝑐1 (𝑥) = 0] + 𝛾.

Có xác suất nói tích cực đối với kết quả tích cực thực sự cao hơn so với kết quả tiêu cực thực sự, ít nhất là ở một khoảng cách 𝛾 nào đó

Giả sử chúng ta có đủ dữ liệu được dán nhãn để tạo ra một điểm xuất phát như vậy.

Định lý: nếu 𝐶 có thể học được từ nhiễu phân loại ngẫu nhiên, chúng ta có thể sử dụng ℎ1 hữu ích yếu cộng với dữ liệu không được gắn nhãn để tạo ra một bộ học mạnh dưới sự độc lập được gán nhãn.

[BB’05]: Dưới sự độc lập được gán nhãn, bất kỳ cặp 〈ℎ1, ℎ2〉 nào có độ đồng thuận cao đối với dữ liệu không được gắn nhãn phải gần với:

  • 〈𝑐1, 𝑐2〉, 〈¬𝑐1, ¬𝑐2〉, 〈𝑡𝑟𝑢𝑒, 𝑡𝑟𝑢𝑒〉, or 〈𝑓𝑎𝑙𝑠𝑒, 𝑓𝑎𝑙𝑠𝑒〉

HÌNH 19.20. Đồng đào tạo: Lợi ích về nguyên tắc.

[BB’05]: Dưới sự độc lập được gán nhãn, bất kỳ cặp 〈ℎ1, ℎ2〉 nào có độ đồng thuận cao đối với dữ liệu không được gán nhãn phải gần với:

  • 〈𝑐1, 𝑐2〉 , 〈¬𝑐1, ¬𝑐2〉, 〈𝑡𝑟𝑢𝑒, 𝑡𝑟𝑢𝑒〉, or 〈𝑓𝑎𝑙𝑠𝑒, 𝑓𝑎𝑙𝑠𝑒〉

Ví dụ:

HÌNH 19.21. Đồng đào tạo: Lợi ích về nguyên tắc.

Vì độc lập mà ta sẽ thấy rất nhiều sự bất đồng….,

Đầu vào: Sl={(x1, y1), …,(xml , yml)}

HÌNH 19.22. Đồng đào tạo/SSL nhiều chế độ xem: Thỏa thuận tối ưu hóa trực tiếp.

Ví dụ:

P. Bartlett, D. Rosenberg, AISTATS 2007; K. Sridharan, S. Kakade, COLT 2008

Đầu vào: Sl={(x1, y1), …,(xml , yml)}

  • Hàm mất l(h(xi) , yi)
    • Ví dụ: mất bình phương l(h(xi) , yi) = (yi − ℎ(xl)) 2
    • Ví dụ: mất 0/1 l(h(xi) , yi) = 1𝑦𝑖≠ℎ(𝑥𝑖)

Ví dụ:

P. Bartlett, D. Rosenberg, AISTATS 2007; K. Sridharan, S. Kakade, COLT 2008

HÌNH 19.23. Đồng đào tạo: Lợi ích về nguyên tắc.

(chạy mẫu)

HÌNH 19.23. Đồng đào tạo/SSL nhiều chế độ xem: Thỏa thuận tối ưu hóa trực tiếp.

, ví dụ: [Levin-Viola-Freund03] xác định các đối tượng trong hình ảnh.

Hai loại tiền xử lý khác nhau.

HÌNH 19.24. Nhiều ứng dụng khác.

Ví dụ: trích xuất thực thể có tên [Collins&Singer99].

– “Tôi đã đến London ngày hôm qua”

Trung tâm của NELL!!!

Tính chính quy dựa trên tính tương tự

  • Giả sử chúng ta được cung cấp một fnc tương tự theo cặp và các mẫu rất giống nhau có thể có cùng nhãn.
  • Nếu chúng ta có nhiều dữ liệu được dán nhãn, điều này cho thấy một Loại thuật toán Nearest-Neighbor.
  • Nếu bạn có nhiều dữ liệu chưa được gắn nhãn, có lẽ bạn có thể sử dụng chúng làm “bàn đạp”.

Ví dụ: các chữ số viết tay [Zhu07]:

HÌNH 19.25. Phương pháp dựa trên đồ thị.

Ý tưởng: xây dựng một đồ thị với các cạnh giữa các mẫu rất giống nhau.

Dữ liệu chưa được gắn nhãn có thể giúp “dính” các đối tượng của cùng một lớp lại với nhau.

HÌNH 19.26. Phương pháp dựa trên đồ thị.

Ý tưởng: xây dựng một đồ thị với các cạnh giữa các mẫu rất giống nhau. Dữ liệu chưa được gắn nhãn có thể giúp “dính” các đối tượng của cùng một lớp lại với nhau.

HÌNH 19.27. Phương pháp dựa trên đồ thị.

Nhận dạng người trong hình ảnh webcam: Ứng dụng học bán giám sát. [Balcan,Blum,Choi, Lafferty, Pantano, Rwebangira, Xiaojin Zhu], Hội thảo ICML 2005 về Học với Dữ liệu Huấn luyện được Phân loại Một phần.

Thông thường, cách tiếp cận dẫn truyền. (Cho trước L + U, đưa ra dự đoán trên U). Được phép xuất bất kỳ nhãn nào của 𝐿 ∪ 𝑈.

Ý tưởng chính:

  • Xây dựng đồ thị G với các cạnh giữa các mẫu rất giống nhau.
  • Cũng có thể được dán lại với nhau trong các mẫu G của các lớp khác nhau.
  • Chạy thuật toán phân vùng đồ thị để tách đồ thị thành từng phần.

HÌNH 19.28. Các phương pháp dựa trên đồ thị.

Một số phương pháp:

– Cắt tối thiểu/Multiway [Blum&Chawla01]

– Cắt “mềm” tối thiểu [ZhuGhahramaniLafferty’03]

– Phân vùng quang phổ

– …

Những điều bạn nên biết

  • Dữ liệu không được gắn nhãn hữu ích nếu chúng ta có niềm tin không chỉ về hình thức của mục tiêu mà còn về mối quan hệ của nó với phân phối cơ bản.
  • Các loại thuật toán khác nhau (dựa trên niềm tin khác nhau).

– SVM truyền dẫn [Joachims ’99]

– Đồng đào tạo [Blum & Mitchell ’98]

– Các phương pháp dựa trên đồ thị [B&C01], [ZGL03]

Tài liệu bổ sung về các phương pháp dựa trên đồ thị

Cắt tối thiểu/Nhiều đường [Blum&Chawla01]

Mục tiêu: Giải quyết các nhãn trên các điểm không được gắn nhãn để giảm thiểu tổng trọng lượng của các cạnh có các điểm cuối có các nhãn khác nhau. (tức là tổng trọng số của các cạnh xấu)

  • Nếu chỉ có hai nhãn, có thể được giải quyết hiệu quả bằng cách sử dụng thuật toán cắt tối thiểu luồng tối đa

– Tạo siêu nguồn 𝑠 được kết nối bởi các cạnh có trọng số ∞ với tất cả + các điểm có nhãn.

– Tạo siêu chìm 𝑡 được kết nối bởi các cạnh có trọng số ∞ cho tất cả các điểm được gắn nhãn −.

– Tìm vết cắt 𝑠-𝑡 có trọng lượng tối thiểu

HÌNH 19.29. Cắt tối thiểu/Nhiều đường [Blum&Chawla01].

Mục tiêu Giải vectơ xác suất trên các nhãn 𝑓𝑖 trên mỗi điểm không được gắn nhãn 𝑖.

(các điểm được gắn nhãn nhận các vectơ tọa độ theo hướng của nhãn đã biết của chúng)

  • Giảm thiểu ∑𝑒=(𝑖,𝑗) 𝑤𝑒 ‖𝑓𝑖 − 𝑓𝑗2 trong đó ‖𝑓𝑖 − 𝑓𝑗‖ là khoảng cách Euclide.
  • Có thể được thực hiện hiệu quả bằng cách giải một tập hợp các phương trình tuyến tính.

HÌNH 19.30. “Cắt mềm” tối thiểu.

  • Theo kinh nghiệm, cách sau hoạt động tốt:
  1. Tính khoảng cách giữa i, j
  2. Đối với mỗi i, kết nối với kNN của nó. k rất nhỏ nhưng vẫn nối đồ thị
  3. Tùy chọn đặt trọng số trên (chỉ) các cạnh đóHÌNH 19.31. Cách tạo biểu đồ.
  4. chỉnh σ

Leave a Reply

Your email address will not be published. Required fields are marked *