Tải bản đầy đủ - 0 (trang)
II. CHẠY TẬP HUẤN LUYỆN

II. CHẠY TẬP HUẤN LUYỆN

Tải bản đầy đủ - 0trang

Đồ án thuật toán23Đồ án thuật toán24Đồ án thuật toán

III.TIẾN HÀNH KIỂM TRA MAIL SPAM- Mình cũng sẽ tách mail cần kiểm tra thành 1 túi từ.

- Áp dụng phương pháp phân loại bayes đơn giản, ta sẽ tính tỉ lệ của từng từ trong

túi từ này có trong List túi từ spam và non-spam là bao nhiêu sau đó lấy tích của

chúng và nhân với tỉ lệ spam:non-spam và so sánh 2 kết quả.

Ví dụ: mail cần kiểm tra có 100 từ, tỉ lệ của từng từ trong List túi từ spam nhân với

nhau là A; tỉ lệ của từng từ trong túi từ non-spam là B. Tỉ lệ spam:non-spam là X:Y

(ban đầu là 50:50 nhưng con số này thay đổi sau mỗi lần thêm mail kiểm tra vào

tập huấn luyện)

- Để biết mail mới có phải là spam hay không ta so sánh A.X với B.Y. Nếu A.X >

B.Y thì mail mới là spam và ta thêm túi từ mới vào List túi từ spam ngược lại thì

mail mới là non-spam, ta thêm túi từ mới vào List túi từ non-spam và lưu lại.25Đồ án thuật toán26Tài liệu bạn tìm kiếm đã sẵn sàng tải về

II. CHẠY TẬP HUẤN LUYỆN

Tải bản đầy đủ ngay(0 tr)

×