Học, tất nhiên, là một lĩnh vực rất rộng. Do đó, lĩnh vực học máy đã phân nhánh thành nhiều phân ngành nhỏ xử lý các loại nhiệm vụ học khác nhau. Chúng tôi đưa ra một phân loại sơ lược về các mô hình học, nhằm cung cấp một góc nhìn về vị trí nội dung cuốn sách này trong lĩnh vực học máy rộng lớn.
Chúng tôi mô tả bốn tham số mà theo đó các mô hình học có thể được phân loại.
Vì học liên quan đến sự tương tác giữa người học và môi trường, ta có thể phân chia các nhiệm vụ học dựa trên tính chất của sự tương tác đó. Sự phân biệt đầu tiên cần lưu ý là giữa học có giám sát và không giám sát.
Lấy ví dụ minh họa, hãy xem nhiệm vụ phát hiện email rác và nhiệm vụ phát hiện bất thường. Với bài toán phát hiện spam, ta xem xét một ngữ cảnh trong đó người học nhận được các email huấn luyện đã có nhãn spam/không spam. Dựa trên việc huấn luyện này, người học sẽ phải tìm ra một quy tắc để gán nhãn cho email mới. Ngược lại, trong bài toán phát hiện bất thường, người học chỉ nhận được một tập lớn email (không có nhãn), và nhiệm vụ là phát hiện các thông điệp “bất thường”.
Ở mức trừu tượng hơn, khi xem học như một quá trình "sử dụng kinh nghiệm để đạt được chuyên môn", thì học có giám sát mô tả một tình huống trong đó “kinh nghiệm” – một ví dụ huấn luyện – chứa thông tin quan trọng (ví dụ như nhãn spam/không spam) mà không có trong các ví dụ kiểm tra chưa thấy, nơi mà chuyên môn đã học sẽ được áp dụng. Trong tình huống này, chuyên môn cần thiết nhằm dự đoán thông tin bị thiếu trong dữ liệu kiểm tra. Trong những trường hợp như vậy, ta có thể xem môi trường như một người thầy “giám sát” người học bằng cách cung cấp thêm thông tin (các nhãn).
Trong học không giám sát, không có sự phân biệt giữa dữ liệu huấn luyện và kiểm tra. Người học xử lý dữ liệu đầu vào với mục tiêu rút ra một bản tóm tắt hoặc phiên bản nén của dữ liệu đó. Phân cụm (clustering) một tập dữ liệu thành các nhóm đối tượng tương tự là một ví dụ tiêu biểu cho loại nhiệm vụ này.
Cũng tồn tại một thiết lập học trung gian, trong đó các ví dụ huấn luyện chứa nhiều thông tin hơn các ví dụ kiểm tra, và người học được yêu cầu dự đoán thông tin còn thiếu hơn nữa trong các ví dụ kiểm tra. Ví dụ, ta có thể học một hàm giá trị mô tả mức độ mà vị trí của quân trắng tốt hơn quân đen trong mỗi thế cờ. Tuy nhiên, thông tin duy nhất có sẵn trong lúc huấn luyện là các vị trí thực tế từ các ván cờ và kết quả người thắng. Các hệ thống học như vậy chủ yếu được nghiên cứu dưới tiêu đề học tăng cường (reinforcement learning).
Các mô hình học có thể khác nhau theo vai trò của người học. Ta phân biệt giữa người học "chủ động" và "thụ động".
Một người học chủ động tương tác với môi trường trong giai đoạn huấn luyện, ví dụ bằng cách đặt câu hỏi hoặc thực hiện các thí nghiệm. Trong khi đó, người học thụ động chỉ quan sát thông tin được cung cấp bởi môi trường (hoặc bởi giáo viên) mà không ảnh hưởng hay điều khiển nó. Lưu ý rằng bộ lọc spam thường là thụ động – chờ người dùng đánh dấu email là spam.
Trong môi trường chủ động, có thể tưởng tượng rằng người học yêu cầu người dùng gán nhãn cho các email cụ thể được người học chọn, hoặc thậm chí được tạo ra bởi chính người học, để cải thiện khả năng hiểu được thư rác là gì.
Khi nghĩ về việc học của con người, ví dụ như một em bé hay một học sinh, quá trình thường liên quan đến một người thầy hữu ích đang cố gắng cung cấp cho người học thông tin hữu ích để đạt mục tiêu học tập.
Ngược lại, khi một nhà khoa học học hỏi từ thiên nhiên – với thiên nhiên đóng vai trò người dạy – thì người dạy là bị động, ví dụ: táo rơi, sao tỏa sáng, mưa rơi mà không quan tâm đến nhu cầu của người học. Ta mô hình hóa các kịch bản học như vậy bằng cách giả định rằng dữ liệu huấn luyện (hoặc kinh nghiệm của người học) được tạo ra bởi một quá trình ngẫu nhiên. Đây là nền tảng cơ bản trong ngành “học thống kê”.
Cuối cùng, học cũng có thể xảy ra khi đầu vào của người học được tạo ra bởi một “giáo viên đối kháng (adversarial teacher)”. Điều này có thể xảy ra trong ví dụ bộ lọc spam (nếu spammer cố tình đánh lừa hệ thống) hoặc trong việc phát hiện gian lận. Ta cũng dùng mô hình giáo viên đối kháng như là tình huống xấu nhất, khi không thể giả định bất kỳ hoàn cảnh dễ chịu nào. Nếu người học có thể học tốt trong điều kiện giáo viên đối kháng, thì chắc chắn sẽ thành công với mọi giáo viên bình thường.
Tiêu chí cuối cùng mà chúng tôi đề cập là sự khác biệt giữa các tình huống mà người học phải phản hồi trực tuyếntrong suốt quá trình học, và các tình huống mà người học chỉ phải sử dụng chuyên môn đã thu được sau khi đã xử lý xong lượng lớn dữ liệu.
Ví dụ, một nhà môi giới chứng khoán phải ra quyết định hàng ngày dựa trên kinh nghiệm đã tích lũy. Họ có thể trở nên thành thạo theo thời gian, nhưng có thể đã mắc lỗi tốn kém trong quá trình đó. Ngược lại, trong nhiều tình huống khai phá dữ liệu, người học – tức người khai phá dữ liệu – có một lượng lớn dữ liệu huấn luyện để sử dụng trước khi cần đưa ra kết luận.
Reference: "Understanding Machine Learning" by Shai Shalev-Shwartz & Shai Ben-David, 2014.