Cách chọn chỉ số Data Drift trong ML Production

image-1755056301859.png

Cách chọn chỉ số Data Drift trong ML Production
(So sánh KL DivergenceWasserstein Distance, và JS Distance)
🔵 Jensen–Shannon (JS) Distance
Ưu điểm:
  • Đối xứng & dễ hiểu: Khác KL, JS đối xứng và luôn nằm trong [0,1] → dễ đặt ngưỡng.
  • Ổn định theo thời gian: Khi 2 phân phối gần như không trùng, giá trị bão hòa → hạn chế báo động giả.
  • Chống nhiễu: Ít bị ảnh hưởng bởi outlier nhỏ → phù hợp cho giám sát ổn định.
Nhược điểm:
  • Tốn tính toán: Nặng hơn khi dữ liệu nhiều chiều.
🔵 Kullback–Leibler (KL) Divergence
Ưu điểm:
  • Nhạy với thay đổi nhỏ: Phát hiện sớm drift nhẹ → phù hợp cho hệ thống cần cảnh báo nhanh.
Nhược điểm:
  • Dễ bất ổn: Nhạy với outlier → dễ sinh báo động giả trong dữ liệu thực tế.
🔵 Wasserstein Distance
Ưu điểm:
  • Ổn định: Xử lý cả thay đổi lớn mà không “nhảy spike” bất thường.
  • Không phụ thuộc vào trùng lặp phân phối: Vẫn tính được khi 2 tập dữ liệu không có giao nhau.
Nhược điểm:
  • Tốn tài nguyên: Khó tối ưu cho tập dữ liệu lớn hoặc yêu cầu real-time.
⚡ Kết luận chọn dùng:
  • JS Distance → Khi cần dễ hiểu, đặt ngưỡng ổn định.
  • KL Divergence → Khi cần nhạy, phát hiện sớm drift nhỏ.
  • Wasserstein Distance → Khi cần theo dõi mượt, ổn định trước thay đổi lớn.