Người học (learner) sẽ nhận được 3 loại thông tin chính:
Domain set (Tập hợp miền):
Gọi là 𝒳, là tập hợp tất cả các đối tượng mà ta muốn gán nhãn.
Ví dụ: nếu ta đang học để phân loại quả đu đủ ngon hay không, thì 𝒳 là tập tất cả quả đu đủ.
Mỗi đối tượng (instance) sẽ được biểu diễn bằng vector đặc trưng (feature) như màu sắc, độ mềm, v.v.
Label set (Tập nhãn):
Gọi là 𝒴, là tập chứa tất cả các nhãn có thể có.
Ví dụ: 𝒴 = {0, 1} (0 là không ngon, 1 là ngon). Có thể dùng {−1, +1} cũng được.
Training data (Dữ liệu huấn luyện):
Gọi là S = ((x₁, y₁), ..., (xₘ, yₘ)), là một tập hợp các cặp dữ liệu đã được gán nhãn.
Đây là dữ liệu mà learner được học từ.
Learner cần đưa ra một luật dự đoán (prediction rule):
h: 𝒳 → 𝒴
Đây là hàm dự đoán nhãn (gọi là predictor hoặc hypothesis hoặc classifier).
Ví dụ: h(x) dự đoán một quả đu đủ có ngon không.
Ký hiệu A(S) chỉ hypothesis mà thuật toán học đưa ra sau khi được học từ S.
Giả sử các đối tượng (ví dụ quả đu đủ) được sinh ra theo một phân phối xác suất 𝒟 trên không gian 𝒳.
Nhãn của mỗi đối tượng được gán bởi một hàm đúng "ẩn" f: 𝒳 → 𝒴 (vì thế yᵢ = f(xᵢ)).
Learner không biết 𝒟 và f, mà chỉ thấy được cặp (xᵢ, yᵢ).
=> Nhiệm vụ của learner là đoán ra f (hay ít nhất là gần đúng).
Ta đánh giá một hypothesis h qua error: xác suất đoán sai.
Công thức:
Tức là xác suất chọn ngẫu nhiên một x từ 𝒳 theo 𝒟, mà h(x) ≠ f(x).
Một số tên gọi khác: generalization error, risk, true error, hoặc loss.
Learner không biết phân phối 𝒟 và hàm gán nhãn f.
Nó như thể bạn bị "thả lên một hòn đảo mới", không biết gì về đu đủ ở đây, phải học từ dữ liệu.
Cách duy nhất để học là thông qua dữ liệu huấn luyện S.
Reference: "Understanding Machine Learning" by Shai Shalev-Shwartz & Shai Ben-David, 2014.