Mặc dù quy tắc ERM có vẻ rất tự nhiên, nhưng nếu không cẩn thận, phương pháp này có thể thất bại thảm hại.
Để minh họa cho một thất bại như vậy, ta hãy quay lại bài toán học cách dự đoán vị của quả đu đủ dựa trên độ mềm và màu sắc của nó. Xét một mẫu như được mô tả sau đây:
Giả sử rằng phân phối xác suất D là sao cho các mẫu được phân bố đều trong hình vuông màu xám và hàm gán nhãn f xác định nhãn là 1 nếu mẫu nằm trong hình vuông xanh bên trong và là 0 nếu không. Diện tích của hình vuông màu xám trong hình là 2 và diện tích của hình vuông màu xanh là 1. Xét bộ dự đoán sau:
Mặc dù bộ dự đoán này có vẻ khá nhân tạo, trong Bài tập 1 chúng tôi sẽ trình bày một biểu diễn tự nhiên của nó bằng đa thức. Rõ ràng, bất kể mẫu dữ liệu là gì, ta luôn có Ls(hS)=0, và do đó bộ dự đoán này có thể được thuật toán ERM chọn (nó là một trong những giả thuyết có chi phí tối thiểu thực nghiệm – không bộ phân loại nào có lỗi nhỏ hơn). Mặt khác, lỗi thực sự của bất kỳ bộ phân loại nào dự đoán nhãn là 1 chỉ trên một số hữu hạn điểm (trong trường hợp này là hữu hạn) là 1/2. Do đó, LD(hS)=1/2.
Chúng ta đã tìm được một bộ dự đoán có hiệu suất hoàn hảo trên tập huấn luyện, nhưng hiệu suất trên “thế giới thực” lại rất kém. Hiện tượng này được gọi là quá khớp (overfitting). Trực giác cho thấy, overfitting xảy ra khi giả thuyết của ta phù hợp quá mức với dữ liệu – giống như trải nghiệm hàng ngày của một người đưa ra lời giải thích chi tiết hoàn hảo cho từng dấu hiệu cụ thể của từng bệnh nhân mà anh ta từng thấy, nhưng lại khiến người ta nghi ngờ về khả năng khái quát hóa của anh ta.
Reference: "Understanding Machine Learning" by Shai Shalev-Shwartz & Shai Ben-David, 2014.