Nhan - What is learning?

What is learning?

Hãy bắt đầu bằng cách xem xét một vài ví dụ về việc học tự nhiên ở động vật. Một số vấn đề nền tảng nhất trong học máy (machine learning – ML) đã xuất hiện ngay trong bối cảnh đó, điều mà chúng ta đều quen thuộc.

Ngại Mồi – Chuột học cách tránh mồi độc: Khi chuột gặp thức ăn có mùi hoặc hình dạng lạ, chúng sẽ ăn thử một lượng rất nhỏ trước. Việc ăn tiếp theo sẽ phụ thuộc vào mùi vị thức ăn và phản ứng sinh lý mà nó gây ra. Nếu thức ăn gây ra phản ứng tiêu cực (như bị bệnh), thì thức ăn đó sẽ bị gắn liền với tình trạng đó, và chuột sẽ không ăn nó nữa. Rõ ràng, có một cơ chế học đang hoạt động – con vật sử dụng kinh nghiệm trong quá khứ để nhận biết độ an toàn của thức ăn. Nếu trải nghiệm trước với loại thức ăn đó là tiêu cực, con vật sẽ dự đoán rằng nó cũng sẽ có ảnh hưởng tiêu cực nếu gặp lại trong tương lai.

Lấy cảm hứng từ ví dụ thành công đó, hãy xem xét một tác vụ học máy cơ bản: giả sử ta muốn lập trình một cỗ máy lọc thư rác. Một giải pháp ngây thơ là làm giống cách chuột học tránh mồi độc: cỗ máy chỉ cần ghi nhớ tất cả email trước đó đã bị đánh dấu là thư rác. Khi email mới đến, nó sẽ so sánh với các email đã biết – nếu trùng, thì xoá; nếu không thì chuyển vào hộp thư đến.

Tuy nhiên, cách "học bằng ghi nhớ" này lại thiếu một khía cạnh quan trọng: khả năng tổng quát hóa – tức là dự đoán nhãn của email chưa từng thấy. Một hệ học tốt phải có khả năng rút ra được quy luật từ các ví dụ cụ thể. Điều này được gọi là lý luận quy nạp (inductive reasoning). Trong ví dụ về chuột, sau khi gặp một loại thức ăn có hại, chuột sẽ tránh cả các loại thức ăn tương tự về mùi hay vị trong tương lai. Trong bài toán lọc thư rác, cỗ máy sẽ quét qua các email đã biết để tìm ra từ khóa đặc trưng cho thư rác. Khi email mới tới, nó sẽ kiểm tra xem có chứa từ nào khả nghi không để dự đoán nhãn thư.

Tuy nhiên, lý luận quy nạp có thể dẫn đến kết luận sai. Ví dụ:

Mê tín ở chim bồ câu: Nhà tâm lý học B.F. Skinner đã làm thí nghiệm với bồ câu đói trong lồng. Một cơ chế tự động cho thức ăn vào lồng theo khoảng thời gian nhất định, không hề phụ thuộc vào hành vi của chim. Khi thức ăn đầu tiên được đưa vào, chim đang làm một hành vi ngẫu nhiên nào đó (mổ, xoay đầu...). Sự trùng hợp này khiến chim liên hệ hành động của mình với việc có thức ăn → lần sau tiếp tục làm lại hành động đó → dần hình thành "niềm tin mê tín" rằng hành động đó là lý do có thức ăn.

Vậy điều gì khiến học của chuột hiệu quả hơn học của bồ câu?

Ngại Mồi (xét lại) – Chuột không học được mối liên hệ giữa thức ăn và sốc điện, hoặc giữa âm thanh với buồn nôn: Thí nghiệm cho thấy nếu thay buồn nôn sau khi ăn bằng sốc điện, thì chuột không né tránh thức ăn đó. Tương tự, nếu thay đặc tính của thức ăn (mùi/vị) bằng tín hiệu âm thanh thì cũng không có phản xạ né tránh. Điều này cho thấy chuột có kiến thức "bẩm sinh" rằng chỉ có buồn nôn mới liên quan tới thức ăn, còn sốc điện thì không.

Điểm khác biệt giữa học hiệu quả (như chuột) và mê tín (như bồ câu) chính là kiến thức có sẵn (prior knowledge) ảnh hưởng tới quá trình học. Đây còn được gọi là định kiến quy nạp (inductive bias). Bồ câu có thể chấp nhận bất kỳ giả thuyết nào, còn chuột "biết" rằng thức ăn không thể gây sốc điện, và âm thanh không liên quan đến giá trị dinh dưỡng.

Việc kết hợp kiến thức có sẵn là thiết yếu để thuật toán học máy hoạt động tốt. Điều này được chứng minh bởi định lý “Không bữa trưa miễn phí” (No-Free-Lunch Theorem). Tức là: càng có kiến thức mạnh mẽ từ trước, thì việc học càng dễ. Tuy nhiên, kiến thức càng mạnh thì khả năng thích nghi càng kém – vì bị ràng buộc từ trước.