LIBSVM – giới thiệu tổng quan và ví dụ
LIBSVM – giới thiệu tổng quan và ví dụ - Machine Learning
Overview – Tổng quan
Máy học khá phức tạp với nhiều bài viết về chúng, nhưng hầu hết là khó hiểu. Tôi muốn viết cho dễ hiểu và minh hoạ cách dùng LibSVM và ứng dụng của nó.
Nó là thư viện miễn phí. Về căn bản, nó cho phép bạn lấy vài mẫu dữ liệu đã có, huấn luyện để tạo 1 mô hình nhận dạng, và rồi sử dụng mô hình này để dự đoán.
The Data – Dữ liệu
Trong bài này, tôi sẽ thực hiện việc phát hiện SPAM. Nếu chúng ta có thể dựa vào những email được đánh dấu là SPAM/Not SPAM, chúng ta có thể dự đoán chính xác 1 email nào đó là SPAM hay ko? Dữ liệu ví dụ được tạo ra để minh hoạ cho thuật toán.
Đây là những email mẫu dùng để huấn luyện. Những email đầu tiên là SPAM, còn lại là không phải SPAM
SPAM
Not SPAM
Dữ liệu có 10 emails. Tiếp theo là tiền xử lý để dữ liệu có định dạng mà LibSVM hiểu được, từ đó để huấn luyện mô hình.
Để định dạng dữ liệu, chúng ta cần biết libSVM học thế nào. Trong máy học nó thường được gọi là “Bộ đặc tính”. Trong trường hợp phân lớp tài liệu (phát hiện spam email) chúng ta xem mỗi từ như một đặc tính. Chắc chắn từ “Viagra” có trong hầu hết email spam, nhưng không tìm thấy trong email thường, nên thuật toán sẽ học từ những đặc điểm này để phân tích 1 email có phải spam không.
Mỗi đặc tính (từ vựng) mà SVM học phải có 1 giá trị. Trong trường hợp này chỉ là phân lớp nhị phân. Nếu từ vựng có trong email thì nó là true (1) và nếu không có thì nó là false (0)
Để đại diện cho mỗi email, chúng tôi tạo ra 1 vectơ giá trị true/false cho mỗi từ (lấy trong 10 email). Đầu tiên, chúng tôi lấy toàn bộ các từ
Bước tiếp theo là tạo vectơ cho mỗi email, hiển thị từ có trong email. Lấy email đầu tiên:
Và định dạng của nó như thế này:
Bây giờ, bạn thấy hơi buồn chán, có quá nhiều số 0. Nhưng có 1 tin tốt là chúng ta chỉ cần quan tâm những từ có mặt:
Bước tiếp theo là đơn giản hoá dữ liệu là đánh chỉ số cho mỗi từ, thay vì phải ghi ra. Để làm điều đó chúng tôi đánh số nguyên theo thứ tự mỗi từ:
Nên email đó sẽ trở thành
Huấn luyện để tạo mô hình
Để huấn luyện, chúng ta cần cho thuật toán biết lớp của email đó. Trong trường hợp này có 2 lớp là SPAM và NOTSPAM. Vì thuật toán chỉ chấp nhận 1 từ nên chúng tôi sửa “Not Spam” thành “NSpam”. Cuối cùng là thay dấu bằng bằng dấu hai chấm.
Và để tạo toàn bộ tập huấn luyện đúng định dạng, chúng tôi cho mỗi email là 1 dòng trong file input. Ví dụ email thứ 2 là:
Nó sẽ trở thành:
Chúng tôi tập hợp vào một file mà mỗi dòng là một email:
Chúng ta cần thay thế tên mỗi lớp bằng số (1 = SPAM và 0 = NSpam) và chúng ta phải đảm bảo dữ liệu sắp xếp theo thứ tự giảm dần. Nên dữ liệu input cuối cùng sẽ giống thế này:
Bây giờ chúng ta đã có file input, save lại và đặt tên là “Spam.train”. Để tạo mô hình dự đoán dùng lênh sau ở command line (trên Windows)
Sau khi run, sẽ có file “Spam.train.model” để phân lớp email.
Test kết quả
Để test, chúng ta dùng email này:
Để chuyển về đúng định dạng chúng ta một lần nữa phải chuyển mỗi từ sang dạng vectơ:
Những từ có dấu ??? nghĩa là không có từ đó, nên chúng ta bỏ qua. Định dạng mới của email là:
Do chúng ta biết email này không phải Spam nên chúng ta bắt đầu bằng 0, rồi save lại với tên “sample.1.txt” và dùng lệnh sau để test:
Kết quả xuất ra cho chúng ta biết thuật toán này dự báo không phải SPAM, độ chính xác là 100%. Tương tự, bạn mở file “sample.1.predicted.txt” bạn sẽ thấy số 0 chỉ ra rằng nó dự báo dòng đầu tiên trong file input thuộc lớp 0 hay là Nspam.
Bây giờ chúng ta tạo vài email để test
Email đầu tiên là SPAM, nhưng cái thứ 2 có 1 chút thú vị. Nếu đó là từ người lạ thì đó là SPAM, tuy nhiên nếu nó từ vợ bạn thì có thể là không
Chúng ta thêm vào file input đã có sẵn thì file input trở thành
And then, lets run the algorithm to see what it thinks:
Sau đó gõ lệnh:
Như bạn thấy, thuật toán làm rất tốt. Nó nghĩ rằng email đầu tiên là NSPAM, thứ 2 là SPAM và thứ 3 là NSPAM. File output: 0, 1, 0
Đây chỉ là ví dụ, tôi mong bản hiểu cách dùng LIBSVM để phân lớp dữ liệu. Bằng cách tạo tập huấn luyện rồi tạo mô hình phân lớp, và test lại thì chúng tôi thấy rằng Support Vector Machines mạnh mẽ và dễ dùng trong Machine Learning.
LIBSVM – giới thiệu tổng quan và ví dụ
Reviewed by Jacky
on
tháng 3 26, 2018
Rating:
Không có nhận xét nào: