Thực hành Hồi quy Logistic

Dữ liệu

Hãy tải dữ liệu ở đây và thể hiện nó.

Dữ liệu là 1 tệp CSV gồm 3 cột, cột đầu là nhãn, cột 2 và cột 3 là tọa độ X, Y của các điểm trên mặt phẳng. Nếu vẽ đúng, bạn sẽ được hình tương tự như sau. Trong đó điểm đỏ thuộc lớp +1, điểm xanh thuộc lớp -1.

Hồi quy Logistic

Hãy viết chương trình (lựa chọn ngôn ngữ tùy ý) huấn luyện 1 bộ phân lớp Logistic như sau:

Biến đổi dữ liệu

Rõ ràng, nếu chỉ dùng phân lớp tuyến tính đơn thuần, ta không thể nào phân lớp vùng xanh và vùng đỏ trong hình trên. Do đó ta cần tìm cách phi tuyến hóa mô hình. Một trong các cách đó như sau:

Biến đổi dữ liệu: Thay vì sử dụng tọa độ $[x,y]$ của điểm, biển đổi chúng thành $[1,x,y,x^2,xy,y^2]$
Huấn luyện: trọng số cần huấn luyện là $[w_0,w_1,\ldots,w_5]$ thay vì 2 trọng số nếu chỉ có tọa độ $[x,y]$.
Điều chỉnh giảm: thêm $\frac 1 2 \lambda \|w\|^2$ vào hàm mục tiêu (hàm negative-log-likelihood) cần tối thiểu hóa

Kết quả

Vẽ đường biên quyết định của mô hình bạn tìm được. Nếu làm đúng, bạn sẽ có hình tương tự như sau:

Điều chỉnh siêu tham số $\lambda$

Hãy thay đổi tham số điều chỉnh giảm $\lambda$ nói ở trên và vẽ biểu đồ số mẫu bị đoán sai như một hàm của $\lambda$.

Tăng bậc của mô hình

Điều gì xảy ra nếu ta sử dụng mô hình bậc 3, tức là sử dụng $$[1,x,y,x^2,xy,y^2,x^3,x^2y,xy^2,y^3]$$ Vẽ biểu đồ các trọng số của mô hình này như các hàm của $\lambda$.