Chuyên mụcBài mới nhất
Xem nhiều nhất
|
Chuyên mục: Tiếp thị trực tuyến
Ngày: 11/12/2009
Một số kỹ thuật nhận diện email spam hiện đang được áp dụng phổ biến trên thế giới là: 1. Co-operative Spam Checksums Kỹ thuật này thực hiện việc phân tách một thư điện tử thành các phần khác nhau và thực hiện tính toán một tổng kiểm tra mã hóa cho mỗi thành phần của email. Nếu một thư điện tử được xác định là spam, các thành phần này có thể được đưa vào cơ sở dữ liệu tập trung như là một dấu hiệu nhận biết spam. Để kiểm tra một email, cơ sở dữ liệu trên được truy vấn để kiểm tra xem có một tổng kiểm tra nào đã được liệt kê trong cơ sở dữ liệu chưa. Hệ thống sẽ trả về một hệ số “tin tưởng” đánh giá khả năng là spam của một email dựa trên số lượng các tổng kiểm tra. 2. Signatures and Spam Scoring Kỹ thuật này sử dụng một danh sách các từ khóa, được gọi là các dấu hiệu (signature), thông thường là các đoạn văn bản ngắn hoặc các biểu thức chính quy. Một email sẽ được kiểm tra xem các dấu hiệu trên có xuất hiện không. Mỗi lần xuất hiện, tổng điểm là spam của email sẽ được cộng thêm một giá trị bằng giá trị của chính dấu hiệu đó. Điểm tổng càng cao thì email này càng có khả năng là spam. 3. White lists and Black lists Một danh sách các từ khóa hay các từ mẫu thường xuất hiện trong “ham” sẽ được đưa vào một danh sách trắng - white list. Tương tự như vậy, một danh sách các từ khóa hay các từ mẫu thường xuất hiện trong “spam” sẽ được đưa và một danh sách đen - blacklist. Mỗi email được so khớp với các danh sách trên để đưa ra quyết định xem nó có phải là spam hay không. 4. Heuristics Kỹ thuật lọc này sử dụng một tập các luật thông minh để xác định các đặc điểm riêng biệt của thư rác. Các đặc điểm này có thể bao gồm cả nội dung hoặc các hành vi riêng biệt xây dựng nên thư rác. Các bộ lọc heuristic có các luật để xác định thư rác và thư hợp lệ. Một email có thể có một vài đặc điểm của thư rác nhưng vẫn được gửi đi như là một thư hợp lệ nếu như nó có một số đủ lớn các đặc điểm để xác định không phải là thư rác. 5. Real-Time IP Blacklists Các thông tin ở email header chứa thông tin về tất cả các địa chỉ IP của các gateway mà email đi qua. Các địa chỉ IP có thể được kiểm tra để phát hiện xem nó có nằm trong một danh sách blacklist thời gian thực hay không. Danh sách IP Blacklist thời gian thực này cho phép liệt kê:
6. Real-Time URL Blacklists Một kỹ thuật phổ biến thường được dùng bởi những người gửi thư rác là cung cấp các liên kết đến các website bên trong email. Ta có thể kiểm tra các URL này xem chúng có xuất hiện trong một URL Blacklist không. Một email rất có thể là spam nếu chứa các URL xuất hiện trong URL Blacklist. 7. URL to IP Mapping Blacklists Danh sách các URL từ email có thể được kiểm tra thông qua hệ thống Internet DNS và tiến hành chuyển sang địa chỉ IP tương ứng. Các địa chỉ IP này sẽ được kiểm tra xem có xuất hiện trong blacklist thời gian thực không. 8. URL Categorization Một số cơ sở dữ liệu, ví dụ như Surf Control, có khả năng trả về một bộ phân loại các URL khác nhau. Một danh sách các URL từ email có thể được xử lý thông qua các cơ sở dữ liệu này để xác định một danh sách các bộ phân loại URL có bên trong email. Từ đó ta tính toán điểm số để xác định xem email này có phải là spam hay không. 9. Domain Age Tương tự như việc sử dụng các URL Blacklist, người gửi thư rác thường đăng ký các tên miền trên Internet rồi ngay lập tức sử dụng chúng để gửi thư rác, sau đó hủy chúng sau một vài tuần sử dụng. Nếu một email được gửi đi từ các địa chỉ tên miền kiểu như vậy, khả năng là spam của nó là cao hơn. 10. Bayesian Filtering Phân loại văn bản - Language Classification là một tiến trình xác định các khuynh hướng hay ý nghĩa của một đoạn văn bản cho trước, ví dụ như phân loại một email hay một văn bản vào một lớp cụ thể. Việc phân loại văn bản có thể là việc xác định thể loại của một cuốn sách, phân loại một tài liệu hay trong trường hợp của chúng ta chính là xác định đâu là một thư rác. Khi được sử dụng để chống lại thư rác, các bộ phân tích ngôn ngữ sẽ phân tích các email (thông thường là email nhận). Hầu hết các bộ lọc đều có chung các chức năng cơ bản. Chúng phân tích các email và học để xác định được các cụm từ, các header và các kiểu văn bản khác (hay là các đặc điểm). Giống như các bộ lọc phân tích văn bản khác, chúng có khả năng xác định các đặc điểm riêng biệt của thư rác, các thư chính tắc (ham) và các nhóm khác. 11. Challenge/Response Systems Kỹ thuật Challenge/response (C/R) có hướng tiếp cận tương tự như với kỹ thuật whitelisting. Khi một người muốn gửi một bức thư hợp lệ đến nhiều địa chỉ lần đầu tiên, họ phải click vào nhiều đường liên kết chỉ để gửi được thư đến cho người nhận.Ví dụ:
12. Digital Signatures Kỹ thuật này thường được sử dụng để xác định một email có phải là ham hay không, nó được sử dụng để giảm thiểu tỷ lệ lỗi FP. Kỹ thuật này dựa trên một chữ ký số mà người gửi đã tạo ra và lưu trong header của email. Bên nhận tính toán lại và kiểm tra xem chữ ký số này có trùng khớp với ban đầu hay không. 13. Rule-Based Filtering - SpamAssassin SpamAssassin là phần mềm mã nguồn mở đầu tiên để lọc thư rác. SpamAssassin sử dụng rất nhiều tập luật khác nhau để kiểm tra xem một bức thư có phải là thư rác hay không. Không chỉ một vài đặc điểm đơn lẻ được sử dụng mà thay vào đó, một điểm số được tính toán dựa trên các đặc điểm của từng bức thư, chỉ khi điểm số này vượt một ngưỡng điểm nào đó thì bức thư mới bị đánh dấu là thư rác. Như được mô tả trên website, SpamAssassin cơ bản bao gồm 3 chức năng chính. Đầu tiên nó phân tích header để phát hiện các đặc điểm hợp lệ hay không hợp lệ. Tiếp theo, SpamAssassin thực hiện một phân tích nội dung thư để tìm kiếm các cụm từ xuất hiện trong thư rác. Cuối cùng, SpamAssassin thực hiện việc kiểm tra rất nhiều các blacklist đang tồn tại. Một cách riêng lẻ, mỗi kỹ thuật trên đều có những hạn chế nhất định. Nhưng khi sử dụng kết hợp các kỹ thuật với nhau, ta có thể tạo ra một hệ thống lọc thư rác thực sự hiệu quả.
Tiếp thị trực tuyến |