Bayes

Páginas: 111 (27671 palabras) Publicado: 4 de octubre de 2011
´ CENTRO DE INVESTIGACION Y DE ESTUDIOS ´ AVANZADOS DEL INSTITUTO POLITECNICO NACIONAL ´ DEPARTAMENTO DE INGENIER´ ELECTRICA IA ´ ´ SECCION DE COMPUTACION

Sistema de an´lisis y filtraje de correo a masivo no solicitado SPAM

Tesis que presenta Francisco Javier Alejandro Lagunes Para obtener el grado de Maestro en Ciencias en la Especialidad de Ingenier´ El´ctrica ıa e opci´n Computaci´n o oDirector de la tesis: Dr. Arturo D´ P´rez ıaz e

M´xico, D.F. e

Julio 2005

ii

Resumen
El uso del correo electr´nico como medio de comunicaci´n y transmisi´n de informaci´n o o o o va en aumento debido a su eficiencia y facilidad de uso. Desafortunadamente, por estas mismas caracter´ ısticas es utilizado para enviar correos masivos no solicitados (SPAM). Los ´ ındices de correo SPAM vanen aumento, y por ello son necesarias t´cnicas y m´todos e e para abatir este problema. Esta tesis presenta el desarrollo de un filtro inteligente para la detecci´n y eliminaci´n o o de correo SPAM. Este filtro esta construido por un conjunto de reglas deterministas y heur´ ısticas as´ como un an´lisis estad´ ı a ıstico. Las reglas deterministas rechazan correos cuyo emisor ha sido previamenteidentificado como fuente de correo SPAM. Pero aceptan inmediatamente correos cuya fuente ha sido validada por el usuario. Las reglas heur´ ısticas analizan el tema y cuerpo de un mensaje mediante la identificaci´n de palabras o frases consideradas como caracter´ o ısticas de correo SPAM. Finalmente, el an´lisis estad´ a ıstico, basado en el teorema de Bayes, calcula la probabilidad de que las frases decierto tama˜o de un cierto mensaje pertenezcan a un n mensaje tipo SPAM. Posteriormente se realiza un c´lculo de probabilidad de que el correo a sea SPAM. El filtro propuesto identifica y elimina correctamente la mayor´ del correo SPAM. ıa Adem´s es adaptable. La actualizaci´n se logra con la informaci´n de mensajes SPAM y a o o no SPAM. Los porcentajes de detecci´n mejoraron en un intervalo de 1 %a 4 % respecto o a los sistemas actuales que filtran el 95 % de correo SPAM. Todo esto se logra por la combinaci´n de las reglas deterministas, las heur´ o ısticas y por el an´lisis estad´ a ıstico. Palabras clave: correo electr´nico, SPAM, reglas deterministas y heur´ o ısticas, filtro probabil´ ıstico. iii

iv

Abstract
Nowadays the electronic mail (email) is the most common service at theinternet. People usually use it for comunication and data transmision. However, its best features (eficiency and facility of use) have increased its used as SPAM mail. The amount of SPAM mails is rising every day, therefore, new SPAM-handling techniques are needed. This thesis presents the development of an intelligent filter for detection and elimination of SPAM mails. This filter is built using aset of deterministic and heuristic rules, and a statistical analysis. Deterministic rules reject such mails which senders have been previously identified as spammers, but if the sender have been authenticated by the user, then the email is accepted. Heuristic rules analyze the email’s subjet and body to identify SPAM words or phrases. Finally, the statistical analysis calculates the email’s spamprobability using the Bayes theorem. The filter proposed identifies and eliminates correctly the most of SPAM mails. Futhermore, it adapts its behavior using the information of valid and SPAM mails. The proposed system outperforms in 1 to 4 % to some of the best SPAM filters. Keywords: electronic mail, SPAM mail, deterministic and heuristic rules, probabilistic filter.

v

vi

AgradecimientosAgradezco a mis padres Genoveva Lagunes Monz´n y Manuel Alejandro Guillen (finao do), a mis hermanos y seres queridos por su apoyo incondicional. Esta tesis est´ dedicada a a ustedes. Agradezco a mi asesor, el Dr. Arturo D´ P´rez por guiarme y aconsejarme en todo ıaz e momento, adem´s de compartirme sus conocimientos. a A mis sinodales, los Dres. Luis Gerardo de la Fraga y Guillermo Morales Luna,...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • BAYER
  • Bayer
  • Bayes
  • Bayas
  • Bayer
  • Bayer
  • bayes
  • Bayo

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS