Download - Proyecto Revisado Con La Aplicacion de Normas APA

Transcript
Page 1: Proyecto Revisado Con La Aplicacion de Normas APA

TEMA: Método de servidores de correo electrónico para degenerar la llegada de correo spam a sus usuarios en forma masiva con la aplicación de probabilidad y estadística bayesiana.

PROBLEMA:El correo spam es un problema que crece a cada instante, ya que el número de correos spam se incrementa diariamente. Este correo basura cuesta dinero, tanto por el tiempo que se pierde examinándolo, como por los recursos de hardware y software necesarios para manejarlo (ancho de banda, servidores de correo más potentes, software de filtrado, etc.), costes que deben ser soportados por las organizaciones en forma de inversiones y horas de trabajo de sus empleados, y que en el caso de los proveedores de acceso a Internet, acabarán repercutiendo a los clientes.

Estudios muestran que más del 70 por ciento de todos los correos electrónicos actuales son spam. Esta clase de correo electrónico masivo llega al usuario sin solicitarlo, en la cual la información que contiene no tiene ninguna utilidad. La mayoría de estos mensajes intentan comercializar productos engañosos para hacerse millonario rápidamente como curas milagrosas, pornografía etc. Pueden traer consecuencias negativas, debido a esto el spam se considera como correo basura. Además de esto, los spammers se están volviendo más sofisticados y están constantemente arreglándoselas para saltarse los métodos estáticos utilizados para combatir el spam, que resultan relativamente fáciles de evadir al modificar un poco el mensaje.JUSTIFICACION:El spam es uno de los grandes problemas, este correo tiene diversas fuentes, desde los virus (y mensajes de antivirus enviados a remitentes falsificados por virus) a los mensajes con bulos que son renviados por muchos usuarios Para combatir el spam de una manera efectiva, es necesaria una nueva técnica adaptativa. Ésta debe familiarizarse con las tácticas que usan los spammers a medida que pasa el tiempo y ser capaz de adaptarse a la empresa específica a la que protege de spam. La respuesta a esta problemática se encuentra en las matemáticas bayesianas. Uno de los filtros más eficientes que se conoce son los filtros bayesianos, este filtro está basado en el teorema probabilístico de Thomas Bayes para determinar un correo electrónico como spam o no.

Cuando pretendemos utilizar un modelo matemático que de respuesta a problemas de este tipo, donde junto a datos mensurables y concretos, el método más eficaz es la estadística bayesiana. La estadística de Bayes, resulta de particular

1 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 2: Proyecto Revisado Con La Aplicacion de Normas APA

utilidad, cuando se valora, junto a datos objetivos, la convicción personal sobre la posibilidad que ocurra o no un suceso; es decir obtener una valoración subjetiva de la probabilidad, a diferencia de la respuesta dada por una estadística puramente frecuentista, que solo devuelve conclusiones dicotómicas, correcto o falso.

Es un hecho que para hacer transacciones (negocios, servicios, etc.) por internet se tendrá que usar el correo electrónico tarde o temprano, por más que se cuide el email, la casilla electrónica se verá inmune a la publicidad no solicitada, la cual produce un severo problema para los usuarios. Un beneficio del uso de los filtros bayesianos es que detecta y aísla automáticamente la mayoría de dichos correos, aliviando al usuario la tarea de recorrer manualmente su buzón de entrada para separar el correo legítimo de los mensajes spam, como emails publicitarios, cadenas, etc. De este modo, ahorra tiempo y frustración, y resguarda a los usuarios de contenidos potencialmente maliciosos.

En resumen, un filtro bayesiano es una herramienta matemática que permite, retroalimentar la fórmula que calcula la probabilidad de un acontecimiento, con la experiencia adquirida anteriormente en casos similares, de modo que la formula aprende y cada vez da respuestas que en principio acierten con más probabilidad que en el pasado, pues el peso de cada una de las antiguas creencias”, (o síntomas), aumenta o disminuye de acuerdo con la experiencia adquirida.

OBJETIVOS:Optimizar el filtro antispam bayesiano basado en la probabilidad condicionada con la innovación de base de datos con registros habituales y nuevos de correo spam (técnicas informáticas), además de esto aplicar algoritmos de adaptación del filtro con experiencia en sucesos anteriores (probabilísticas y estadísticas).

Crear una base de datos con correos spam, para junto con un antimalware analizar el código fuente del contenido de dicho correo, y en caso de ser un malware añadir su código a la firma de virus del antimalware, para una constante actualización de la base de datos de virus existentes en la red.

Mejorar la inferencia bayesiana con la probabilidad obtenido de anteriores correos spam, para aumentar la precisión del calculo probabilístico de palabras en un correo electrónico disminuyendo así su llegada.

2 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 3: Proyecto Revisado Con La Aplicacion de Normas APA

INTRODUCCIONHoy en día el internet se ha vuelto el canal de comunicación mas importante del mundo pues logra la conexión diferentes partes con mucha facilidad y el acceso a este es relativamente fácil en los tiempos actuales, y es por este medio y mas específicamente por la comunicación a través correos electrónicos, el cual es un medio escrito también capaz de llevar datos diferentes de texto. El fácil uso y manejo de este medio de comunicación, lo ha conllevado a una gran cantidad de usuarios, siendo esta la razón por la cual su eficiencia, eficacia y rapidez son las bases del medio y su principal preocupación. Inevitablemente unido al internet Al mismo tiempo que goza de sus beneficios esta expuesto a varios tipos de irrupciones, siendo el principal el ataque por correo spam, mismo que ataca de manera indirecta haciendo mucho mas difícil su detección y aun mas su eliminación parcial o total.

Es aquí que los filtros y métodos de filtrado son de gran relevancia pues estos hacen la gran diferencia entre un servidor con optimo redimiendo en registro de correos y un servidor con espacio de almacenamiento agotado totalmente. Son filtros que poseen una serie de características que ayudan al servidor y de manera subjetiva al usuario a manejar de manera eficaz los registros de correo. A la vez el filtrado de correo es tan compacto que posee formas, elementos, procesos, diferentes tipos, entre otros. En unión los filtros y métodos de filtrado, conducen eficazmente mediante una serie de elementos que hacen viable el uso de servidores como corazón y principal existencia del correo electrónico.

MARCO TEORICO

1. SPAM1.1 Definición.

A. Zdziarski (2005) define un spam “como un tipo de correo electrónico no deseado masivo que llega al usuario sin que este lo haya solicitado. Generalmente este tipo de correos intentan comercializar productos engañosos, propuestas para hacerse millonario fácilmente, etc.”(pag.1)

“Cualquier correo electrónico con remitente falsificado, o un mensaje enviado a través de servidores de correo no protegidos” (Andy Walker, 2006, pag.8)

3 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 4: Proyecto Revisado Con La Aplicacion de Normas APA

1.2 Antecedentes.

Como nos podemos dar cuenta el ataque de correo spam de información abarca el tema de ataque y medio, el cual es necesario para poder comprender lo básico en la realización de un filtro. Para poder realizar esto debemos conocer un poco de su historia y de sus orígenes, para ampliar el conocimiento. El correo basura mediante el servicio de correo electrónico nació el 5 de marzo de 1994. Este día una firma de abogados de Canter and Siegel, publica en Usenet un mensaje de anuncio de su firma legal, el cual en el primer día después de la publicación, facturó cerca de 10.000 dólares por casos de sus amigos y lectores de la red. Desde ese entonces, el marketing mediante correo electrónico ha crecido a niveles impensados desde su creación.

¿Cuál es el ciclo de vida del SPAM?Spammer (2005) nos dice:• Recolección de correos electrónicos• Envío masivo• Verificación de direcciones activas• Almacenamiento y compra/venta (pág. 5)

¿Cómo se genera y llega a las cuentas?Jeffrey (2004) enuncia que se genera por “Hacer publicidad utilizando como medio el correo electrónico se justifica por su bajo costo, para enviar correo masivo a destinatarios que no se sabe si les interesará un producto, sólo necesita de una computadora, una conexión a Internet y una lista de direcciones de correo electrónico a los cuales se desea "beneficiar" con la publicidad de un producto.”(pag.6)Andy Walker nos menciona:

Recogida de información publicada en grupos de noticias (USENET), servidores web, salas de chat y listas de correo (incluso suscribiéndose a las mismas). De éstos extraen no sólo direcciones de correo de usuarios (de las cabeceras de los mensajes) sino también servidores de correo o pasarelas existentes en Internet.La utilización de diccionarios de palabras y nombres comunes contra servidores de correo para identificar direcciones válidas en éstos.

4 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 5: Proyecto Revisado Con La Aplicacion de Normas APA

El ataque a sistemas informáticos, bien a través de intrusiones remotas (habitualmente a líneas con conexión a Internet doméstica), o bien a través del envío de virus o troyanos. (pag.18)

Jeffrey (2004) añade también que:

Una más sofisticada, es usar unos programas conocidos como arañas (spider), que rastrean páginas de Internet en busca de e-mails. De esa manera, casi cualquier dirección publicada en una página WEB, regala la información a los spamers.Existe otra forma mucho más simple y mucho menos lícita, comprar bases de datos con direcciones de correo electrónico. Esta además de dar a los spamers información valiosa, genera utilidades para quienes venden nuestros datos. (pag.6)

1.3 Características

Algunas de las características más comunes que presentan este tipo de mensajes de correo electrónico son:

• “La dirección que aparece como remitente del mensaje no resulta conocida para el usuario, y es habitual que esté falseada”. (A. Zdziarski, 2006, pág. 21)• “El mensaje no suele tener dirección Reply”. ”. (A. Zdziarski, 2006, pág. 21)• “Presentan un asunto llamativo”. ”. (A. Zdziarski, 2006, pág. 21)• “El contenido es publicitario: anuncios de sitios web, fórmulas para ganar dinero fácilmente, productos milagro, ofertas inmobiliarias, o simplemente listados de productos en venta en promoción”. ”. (A. Zdziarski, 2006, pág. 21)• “La mayor parte del spam está escrito en inglés y se origina en Estados Unidos o Asia, pero empieza a ser común el spam en español”. ”. (A.Zdziarski, 2006, pág. 21)

5 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 6: Proyecto Revisado Con La Aplicacion de Normas APA

1.4 Tipos.

Walker (2006) divide el spam según su origen: Spam que se envía por correo electrónico: van dirigidos a usuarios

individuales con mensajes directos que llegan a sus buzones particulares de correo. .(pág. 13)

Spam a través de las listas: se remiten a grupos de noticias, listas de correos y, aunque en otro nivel, a los que utilizan o acceden a los foros de discusión. Los mensajes de spam a través de listas van dirigidos a aquellas personas que leen los grupos de noticias, haciendo que estos sean menos útiles para los usuarios, a los que abruman con un aluvión de anuncios y mensajes irrelevantes.(pág. 13)

Por otro lado Spammer (2005) los clasifica en:

Texto plano (Compre Viagra !!) (pag.17) Texto disfrazado “Haga$e Ric000” (pag.17) Texto HTML (con imágenes) (pag.17) Texto con URL “Aquí tienes el mensaje que te prometí

http://venacomprar.com(pag.17) Texto aleatorio + mensaje (“en un lugar de la Mancha … vi – a – gra “)

(pag.17) Malware + Phishing(pag.17)

De manera especial hay que resaltar el pishing, este “malware” es creado y destinado específicamente para la captura de credenciales bancarias que permiten tener acceso a los activos de los clientes. Estos troyanos se instalan de forma inadvertida en sus sistemas y tienen acceso ilícito a sus credenciales. (Spammer, 2005, pág. 17)

2. FILTRO BAYESIANO2.1 Definición.

Torres y Castaño (1986) nos dicen:

El filtro Bayesiano es la principal tecnología de `lucha contra el spam' que es un tipo de puntuación- filtros de spam basados en contenido, analizar el contenido del correo, y calcular la probabilidad de que el mensaje sea spam. Se acumula una lista de características de los elementos que se suelen ser spam, así como mensajes de correo electrónico bien. Este filtro

6 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 7: Proyecto Revisado Con La Aplicacion de Normas APA

está basado en el teorema de Bayes para determinar un correo electrónico como spam o no. El teorema probabilístico de Thomas Bayes resulta útil cuando conocemos el resultado final de un experimento, pero desconocemos alguno de los pasos intermedios en el que estamos interesados. (pág. 43)

Se basa en el siguiente principio matemático:“La mayoría de los sucesos son dependientes y la probabilidad de que un suceso ocurra en el futuro puede ser deducida de las ocurrencias anteriores de dicho suceso.”(Sotomayor y Wisniewski, 2001, pág. 78).

Torres y Castaño (1986) nos dicen: Supongamos que el mensaje se sospecha contiene la palabra "réplica”; la fórmula utilizada por el software para determinar que se deriva del teorema de Bayeses la probabilidad de que un mensaje es un correo no deseado, sabiendo que la palabra "réplica" está en él;

Es la probabilidad de que un mensaje es un correo no deseado, sabiendo que la palabra "réplica" está en él.

Es la probabilidad global de que cualquier mensaje es spam

Es la probabilidad de que la palabra "réplica" aparece en los mensajes de spam.

Es la probabilidad global de que un mensaje dado no es spam (es "jamón").

Es la probabilidad de que la palabra "réplica" aparece en los mensajes de manera exagerada. (pág. 56)

2.2 Antecedentes

“El primer programa de filtrado de mail-conocido que utilizo un clasificador de Bayes fue el programa iFile Jason Rennie, lanzado en 1996. El programa fue utilizado para clasificar el correo en carpetas. Sin embargo, en 2002, Paul Graham fue capaz de mejorar en gran medida la tasa de falsos positivos, por lo que podría ser utilizado por sí misma como un filtro de spam. Este trabajo fue poco después a desplegarse en los filtros de spam comerciales”. (Sotomayor y Wisniewski, 2001, pág. 9).

7 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 8: Proyecto Revisado Con La Aplicacion de Normas APA

Sotomayor y Wisniewski (2001) señala que para lograr un buen porcentaje de acierto (99,9x%), es necesario entrenar previamente al filtro correspondiente a cada usuario; Entre 1000 y 2500 mensajes inocentes, Entre 100 y 200 mensajes spam. Algunas de las funciones de DSPAM no se activan hasta recibir al menos 2500 mensajes inocentes. (pág. 21)

2.3 Características

“El filtro bayesiano necesita una base de datos que contenga palabras y otros criterios (direcciones IP, hosts,…) para calcular la probabilidad de que un correo determinado sea spam, sacados de un ejemplo de correo basura y de correo válido”. (Sotomayor y Wisniewski, 2001, pág. 14).“El filtro bayesiano aprende a detectar el correo basura y legítimo analizando la cabecera, los adjuntos y el contenido de los mensajes recibidos”. (M. Sahami, S. Dumais, D. Heckerman, E. Horvitz, 1998, pág. 86).“Hay dos carpetas, Spam y no Spam, donde se puede ir depositando los correos: si son Spam, en la carpeta Spam, y si alguno lo marca como Spam y no lo es, en la capeta No-Spam para que el sistema pueda identificarlo como tal. El filtro Bayesiano obtiene sus datos mediante el análisis de estos mensajes. Haciendo esto regularmente, el filtro de spam "aprende" a distinguir mejor los mensajes de Spam” (M. Sahami, S. Dumais, D. Heckerman, E. Horvitz, 1998, pág. 87).Graham (2003) nos dice: “Los filtros de spam Bayesianos aprenden, comparan y se

adaptan.”(pág. 32).Graham (2003) enuncia:

Ventajas– Se adapta a si mismo a lo largo del tiempo– Es adaptable a cada usuario / grupo– Multilingüe e internacional– Difícil de engañar– Rápido aprendizaje– Tiene en cuenta todo el mensaje y reconoce las palabras que identifican spam y las queIdentifican ham.Inconvenientes– Requiere aprendizaje (≈ 2 semanas)– Degradación de la base de datos (pag.90)

Se define dos archivos en el filtraje bayesiano:

8 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 9: Proyecto Revisado Con La Aplicacion de Normas APA

Falsos Negativos: correo que es spam y no es detectado como tal por el filtro antispam, son los errores más habituales. (Graham, 2003, pág. 40) Falsos Positivos: correo legítimo que es detectado como spam por el filtro antispam, son los errores mas peligrosos (Graham, 2003, pág. 40)

METODOLOGÍA

1. Métodos de investigación

El estudio a llevarse a cabo, se cimentará sobre la aplicación de la investigación descriptiva, bibliográfica y de campo.

Como expone Moreno A., (2000) la investigación descriptiva tiene por objetivo:

La investigación descriptiva tiene por finalidad presentar aspectos diversos del objeto, sin que se alcance otra forma de explicación, ni se busque interrelacionar esos aspectos logrados. La investigación descriptiva es un estudio de fundamentación empírica y constituye un grado superior al de la investigación simplemente exploratoria, aunque muchas veces se fusione con ella. La investigación descriptiva, no llega a constatar una teoría científica, ni tiene asideros suficientes para la ratificación de una hipótesis científica (p. 55).

La realización de este estudio, se enfocará hacia la descripción, análisis e interpretación de los fenómenos y parámetros implicados en la generación y llegada de correos spam a los usuarios, con el fin de precisar la fuente de generación de dichos correos, resulta así, indispensable la aplicación de la investigación descriptiva.

La investigación bibliográfica de acuerdo a la página web http://www.mo- nografias.com/trabajos7/sisinf.shtml consiste en:

La revisión bibliográfica de tema para conocer el estado de la cuestión. La búsqueda, recopilación, organización, valoración, crítica e información bibliográfica sobre un tema específico tiene un valor, pues evita la dispersión de publicaciones o permite la visión panorámica de un problema. La investigación bibliográfica es aquella etapa de la investigación científica donde se explora qué se ha escrito en la comunidad

9 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 10: Proyecto Revisado Con La Aplicacion de Normas APA

científica sobre un determinado tema o problema. ¿Qué hay que consultar, y cómo hacerlo?

La compilación y selección de información adecuada permitirá discernir y plantear razonamientos que fundamentarán aún más el estudio a realizarse para llegar a cumplir la hipótesis planteada.

Al referirse a la investigación de campo, Zorrilla (1993) en la página web: http://www.AI/investipos.htm la define así:

La investigación de campo o investigación directa es la que se efectúa en el lugar y tiempo en que ocurren los fenómenos objeto de estudio. Se basa en informaciones obtenidas directamente de la realidad, permitiéndole al investigador cerciorarse de las condiciones reales en que se ha conseguido los datos. En otras palabras, el investigador efectúa una medición de los datos. Sin embargo, qué tanto datos se pueden obtener considerando las restricciones de cada estudio como por la carencia de recursos materiales, humanos, monetarios, físicos. Este tipo de investigación distingue entre el lugar donde se desarrolla la investigación, si las condiciones son las naturales en el terreno de los acontecimientos tenemos una investigación de campo, como los son las observacio- nes en un barrio, las encuestas a los empleados de las empresas, el registro de datos relacionados con las mareas, la lluvia y la temperatura en condiciones naturales (p. 62).

Los datos provenientes directamente de la fuente real permitirán ser ampliamente usados y con total certeza, en el proceso investigativo de el método de degeneración de correos spam.

2. Técnicas de Investigación2.1 .Técnicas e instrumentos de recolección de datos

Para la ejecución de este estudio se emplearán técnicas e instrumentos para recabar información de origen primaria como secundaria.

Como cita el autor Moreno A., (2000), las fuentes primarias se definen como:

La investigación de fuentes primarias son aquellas en las que el investigador directamente o por medio de personal auxiliar, toma la información de las personas, lugares o hechos, que conforman el objeto de investigación en forma directa. Por lo dicho se entiende que la

10 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 11: Proyecto Revisado Con La Aplicacion de Normas APA

investigación de fuente primaria recaba la información de quien la tenga, sin importar que otros investigadores también lo hayan hecho o lo estén haciendo. Las fuentes de información primaria contienen información original (p. 48).

La información primaria procederá del estudio a realizarse sobre datos de exploración en los servidores de correos electrónicos con sus respectivas bases datos ya existentes.

De acuerdo a la página web http://www.rrppnet.com.ar/tecnicasdeinvesti- gación.htm la observación directa consiste en: “La observación directa consiste en que el observador o investigador se pone en contacto personalmente con el hecho o fenómeno que trata investigar”.

La observación directa será una de las fuentes de información primaria que proveerá de datos reales de servidores de internet propios de los hechos a investigar, ya que se receptará dicha información directamente de los correos electrónicos , así mismo, los filtros bayesianos proporcionarán directamente datos para su posterior análisis e interpretación. El detalle de los acontecimientos que se presenten durante la observación directa, serán registrados en nuevas bases de datos creadas por los servidores y procesados directamente por los filtros bayesianos con el método probabilístico y estadístico de Bayes.

Según lo enuncia Andino P., (1994), las fuentes secundarias son:

Las fuentes secundarias de información son las que provienen de una actividad investigativa realizada por otro investigador, por grupo de investigadores o por instituciones especializadas y que han sido difundidas por algún medio. Se encuentran caracterizadas de acuerdo al medio de difusión en las que se encuentran la información. Para obtener la información secundaria nunca se establece contacto directo con el objeto de estudio (p. 87).

Como fuentes secundarias, se utilizará documentos técnicos, textos, artículos, información web, y demás documentos informativos consultados y proporcionados por Servidores ya existentes.

11 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 12: Proyecto Revisado Con La Aplicacion de Normas APA

2.2. Análisis y discusión de datos

Los datos que se obtendrán durante la consecución del estudio serán revisados y procesados mediante el ordenamiento, clasificación, tabulación y caracterización de los mismos, estableciendo de esta forma una jerarquización y correlación de la información para su análisis e interpretación.

El análisis y discusión de los datos versará sobre la determinación de los correos spam obtenidos de la información recabada del estudio directo de campo y laboratorio, además del análisis de filtros bayesianos, interpretación de los métodos probabilísticos, estudio de del teorema de bayes, análisis que permita de manera objetiva llegar a sustentar la hipótesis planteada.

3. Materiales

Nuestro sistema será implementado con las herramientas actuales y adaptables a los requerimientos exigidos por el mismo, permitiendo con esto tener una gran eficiencia, un fácil uso y a su vez tenga una mayor escalabilidad. Las herramientas a utilizar son mostradas en las siguientes tablas y se las detallan en los siguientes puntos a tratar:

SOFTWARE DESCRIPCIÓNWindows 2003 Server Sistema operativoExchange Server 2003 Contenedor de correos

Tabla 1. Software recomendado para el desarrollo del Servidor de Correo

SOFTWARE DESCRIPCIÓNWindows XP Professional Sistema operativoVisual C# Net Ambiente de desarrolloSQL Server 2005 Motor de base de datosCrystal Reports Generador de reportes

Tabla 2. Software recomendado para el desarrollo del Cliente

RESULTADOS

12 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 13: Proyecto Revisado Con La Aplicacion de Normas APA

Al recabar la información técnica – científica, tanto en forma bibliográfica como a partir de las pruebas o ensayos de campo, se podrá emitir resultados y plantear así las propuestas y soluciones más adecuadas a la hipótesis planteada.

Como resultado se obtuvo una herramienta para podernos “Defender” de los mensajes basura de algunas maneras, aunque no hay métodos infalibles. Por un lado, con unas ciertas normas que debemos seguir ante los mensajes SPAM que recibamos. Por otro, filtrando los mensajes que nos llegan para intentar recibir la menor cantidad posible de este correo no solicitado.

En la parte de que proporcionamos a los usuarios conocer los tipos contactos que no pertenecen a su lista de favorito, Se les permite determinar si estos contactos al que llamamos “Contactos indirectos” pueden pertenecer a su lista de contactos personales o a un determinado grupo el cual podríamos tener personalizados de acuerdo a los contactos de nuestra conveniencia, o si estos contactos indirectos están repercutiendo en nuestro buzón de correos, enviando tipos de correos denominados SPAM para lo cual podríamos considerarlos como un usuario cuyos correos son de no importancia y de esta manera poder clasificar a este usuario.

Finalmente en la interfaz que proporcionamos al Administrador de correo, en la que podrá encontrar una clasificación de usuario por el espacio de disco que ocupan sus correos y por el número de correos SPAM que reciben los mismos, se obtuvo como resultado diferentes grupos de usuarios entre los que ocupan mayor espacio de disco y así mismo lo que mayor correo basura reciben en sus correo.

13 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 14: Proyecto Revisado Con La Aplicacion de Normas APA

ETAPAS DE TRABAJO / 2009

JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE NOVIEMBRE

Semanas Semanas Semanas Semanas Semanas Semanas

1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

Recopilación de información bibliográfica

Elaboración y revisión del plan de tesis

Elaboración y revisión de denuncia de grado

Estudio y análisis de información recabada

CAPÍTULO I: Introducción

CAPÍTULO II: Marco Teórico

CAPÍTULO III: Metodología

CAPÍTULO IV: Análisis de Datos

CAPÍTULO V: Discusión e interpretación de resultados

CAPÍTULO VI: Conclusiones y recomendaciones

Elaboración y revisión primer borrador

Elaboración y revisión segundo borrador

Elaboración y presentación de informe final de tesis

Predefensa y defensa de tesis

14 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 15: Proyecto Revisado Con La Aplicacion de Normas APA

CRONOGRAMA

15 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 16: Proyecto Revisado Con La Aplicacion de Normas APA

Conclusiones:

Con una tecnología moderna como el uso de los filtros bayesianos los correos electrónicos

buscan con su máxima capacidad en desparecer los spam; se puede atenuar, pero no

acabar. Por esto existen las demandas de los métodos para tratar de superar con el

problema, pero en gran cantidad el uso de los filtros bayesianos es el mejor.

La tarea de filtrado spam, aplicado a métodos de categorización de texto y usando

métodos de aprendizaje automático es una tarea muy importante actualmente, tanto

desde el punto de vista de la investigación como desde la perspectiva comercial.

No hay una solución al problema de los spam por no haber un método tan efectivo que

finalmente los elimine, pero el uso del los filtros bayesianos es uno de los mas acertados

ya que rompe con un gran porcentaje el ingreso de estos spam, disminuyendo el negocio

rentable de los que los producen.

Una cuestión importante a la hora de elegir un método tan efectivo para tratar de detener

el filtrado de los spam es determinar la estrategia mas adecuada, en la cual consiste en

filtrar el mayor número posible de correos válidos, o relajar las condiciones para dejar

pasar más correos y evitar el rechazo de correos correctos.

Los spammers aprovechan nuevas tecnologías para el uso de los spam, ya que estas

personas son relativamente expertos, pero con el uso de filtros bayesianos se alcanza un

índice de efectividad para eliminarlos, con lo cual determina que los spammers atacan

pero los filtros se adaptan.

16 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos

Page 17: Proyecto Revisado Con La Aplicacion de Normas APA

Bibliografía:

Nieves, Antonio (2010). Probabilidad y Estadística para Ingeniería. México:

McGRAW-HILL

Korth, Henry F. y Silberschatz, Abraham (1993). Fundamentos de Base de Datos.

España: McGRAW-HILL

Stout, Rick (1997).Optimización de servidores. España: McGRAW-HILL

Plaza, Javier (1998).Desarrollo de aplicaciones. España: McGRAW-HILL

Zdziarski, Jonathan (2005). Bayesian Content Filtering and the Art of Statistical.

España.

Walker, Andy (2006). Manual Imprescindible De Seguridad. España.

Posluns, Jeffrey (2004). Inside the spam cartel. Español

Aguirre, Victor (1986). Introduccion al filtro de Kalman con un enfoque bayesiano.

México.

Velasco, Gabriel. Y Piotr, Marian (2001). Probabilidad y Estadistica para

ingeniería y ciencias. España.

Dumais, S(1998). A bayesian approach to filtering junk e-mail. España.

Berger, A. (2000).Aplica métodos efectivos para librarte elspam Extraído el 07 de

julio de 2012 desde

http://www.onlynux.com/articulos/e_articulo_filtro_email_librate_spam.shtml

17 teorema probabilístico de Thomas Bayes (estadística Bayesiana); sparms; virus troyanos