Proyecto Revisado Con La Aplicacion de Normas APA

of 24 /24

Click here to load reader

Embed Size (px)

Transcript of Proyecto Revisado Con La Aplicacion de Normas APA

TEMA: Mtodo de servidores de correo electrnico para degenerar la llegada de correo spam a sus usuarios en forma masiva con la aplicacin de probabilidad y estadstica bayesiana. PROBLEMA: El correo spam es un problema que crece a cada instante, ya que el nmero de correos spam se incrementa diariamente. Este correo basura cuesta dinero, tanto por el tiempo que se pierde examinndolo, como por los recursos de hardware y software necesarios para manejarlo (ancho de banda, servidores de correo ms potentes, software de filtrado, etc.), costes que deben ser soportados por las organizaciones en forma de inversiones y horas de trabajo de sus empleados, y que en el caso de los proveedores de acceso a Internet, acabarn repercutiendo a los clientes. Estudios muestran que ms del 70 por ciento de todos los correos electrnicos actuales son spam. Esta clase de correo electrnico masivo llega al usuario sin solicitarlo, en la cual la informacin que contiene no tiene ninguna utilidad. La mayora de estos mensajes intentan comercializar productos engaosos para hacerse millonario rpidamente como curas milagrosas, pornografa etc. Pueden traer consecuencias negativas, debido a esto el spam se considera como correo basura. Adems de esto, los spammers se estn volviendo ms sofisticados y estn constantemente arreglndoselas para saltarse los mtodos estticos utilizados para combatir el spam, que resultan relativamente fciles de evadir al modificar un poco el mensaje. JUSTIFICACION: El spam es uno de los grandes problemas, este correo tiene diversas fuentes, desde los virus (y mensajes de antivirus enviados a remitentes falsificados por virus) a los mensajes con bulos que son renviados por muchos usuarios Para combatir el spam de una manera efectiva, es necesaria una nueva tcnica adaptativa. sta debe familiarizarse con las tcticas que usan los spammers a medida que pasa el tiempo y ser capaz de adaptarse a la empresa especfica a la que protege de spam. La respuesta a esta problemtica se encuentra en las matemticas bayesianas. Uno de los filtros ms eficientes que se conoce son los filtros bayesianos, este filtro est basado en el teorema probabilstico de Thomas Bayes para determinar un correo electrnico como spam o no. Cuando pretendemos utilizar un modelo matemtico que de respuesta a problemas de este tipo, donde junto a datos mensurables y concretos, el mtodo ms eficaz es la estadstica bayesiana. La estadstica de Bayes, resulta de particular1 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

utilidad, cuando se valora, junto a datos objetivos, la conviccin personal sobre la posibilidad que ocurra o no un suceso; es decir obtener una valoracin subjetiva de la probabilidad, a diferencia de la respuesta dada por una estadstica puramente frecuentista, que solo devuelve conclusiones dicotmicas, correcto o falso. Es un hecho que para hacer transacciones (negocios, servicios, etc.) por internet se tendr que usar el correo electrnico tarde o temprano, por ms que se cuide el email, la casilla electrnica se ver inmune a la publicidad no solicitada, la cual produce un severo problema para los usuarios. Un beneficio del uso de los filtros bayesianos es que detecta y asla automticamente la mayora de dichos correos, aliviando al usuario la tarea de recorrer manualmente su buzn de entrada para separar el correo legtimo de los mensajes spam, como emails publicitarios, cadenas, etc. De este modo, ahorra tiempo y frustracin, y resguarda a los usuarios de contenidos potencialmente maliciosos. En resumen, un filtro bayesiano es una herramienta matemtica que permite, retroalimentar la frmula que calcula la probabilidad de un acontecimiento, con la experiencia adquirida anteriormente en casos similares, de modo que la formula aprende y cada vez da respuestas que en principio acierten con ms probabilidad que en el pasado, pues el peso de cada una de las antiguas creencias, (o sntomas), aumenta o disminuye de acuerdo con la experiencia adquirida. OBJETIVOS: Optimizar el filtro antispam bayesiano basado en la probabilidad condicionada con la innovacin de base de datos con registros habituales y nuevos de correo spam (tcnicas informticas), adems de esto aplicar algoritmos de adaptacin del filtro con experiencia en sucesos anteriores (probabilsticas y estadsticas). Crear una base de datos con correos spam, para junto con un antimalware analizar el cdigo fuente del contenido de dicho correo, y en caso de ser un malware aadir su cdigo a la firma de virus del antimalware, para una constante actualizacin de la base de datos de virus existentes en la red. Mejorar la inferencia bayesiana con la probabilidad obtenido de anteriores correos spam, para aumentar la precisin del calculo probabilstico de palabras en un correo electrnico disminuyendo as su llegada.

2 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

INTRODUCCION Hoy en da el internet se ha vuelto el canal de comunicacin mas importante del mundo pues logra la conexin diferentes partes con mucha facilidad y el acceso a este es relativamente fcil en los tiempos actuales, y es por este medio y mas especficamente por la comunicacin a travs correos electrnicos, el cual es un medio escrito tambin capaz de llevar datos diferentes de texto. El fcil uso y manejo de este medio de comunicacin, lo ha conllevado a una gran cantidad de usuarios, siendo esta la razn por la cual su eficiencia, eficacia y rapidez son las bases del medio y su principal preocupacin. Inevitablemente unido al internet Al mismo tiempo que goza de sus beneficios esta expuesto a varios tipos de irrupciones, siendo el principal el ataque por correo spam, mismo que ataca de manera indirecta haciendo mucho mas difcil su deteccin y aun mas su eliminacin parcial o total. Es aqu que los filtros y mtodos de filtrado son de gran relevancia pues estos hacen la gran diferencia entre un servidor con optimo redimiendo en registro de correos y un servidor con espacio de almacenamiento agotado totalmente. Son filtros que poseen una serie de caractersticas que ayudan al servidor y de manera subjetiva al usuario a manejar de manera eficaz los registros de correo. A la vez el filtrado de correo es tan compacto que posee formas, elementos, procesos, diferentes tipos, entre otros. En unin los filtros y mtodos de filtrado, conducen eficazmente mediante una serie de elementos que hacen viable el uso de servidores como corazn y principal existencia del correo electrnico.

MARCO TEORICO 1. SPAM

1.1 Definicin. A. Zdziarski (2005) define un spam como un tipo de correo electrnico no deseado masivo que llega al usuario sin que este lo haya solicitado. Generalmente este tipo de correos intentan comercializar productos engaosos, propuestas para hacerse millonario fcilmente, etc.(pag.1) Cualquier correo electrnico con remitente falsificado, o un mensaje enviado a travs de servidores de correo no protegidos (Andy Walker, 2006, pag.8)3 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

1.2 Antecedentes. Como nos podemos dar cuenta el ataque de correo spam de informacin abarca el tema de ataque y medio, el cual es necesario para poder comprender lo bsico en la realizacin de un filtro. Para poder realizar esto debemos conocer un poco de su historia y de sus orgenes, para ampliar el conocimiento. El correo basura mediante el servicio de correo electrnico naci el 5 de marzo de 1994. Este da una firma de abogados de Canter and Siegel, publica en Usenet un mensaje de anuncio de su firma legal, el cual en el primer da despus de la publicacin, factur cerca de 10.000 dlares por casos de sus amigos y lectores de la red. Desde ese entonces, el marketing mediante correo electrnico ha crecido a niveles impensados desde su creacin. Cul es el ciclo de vida del SPAM? Spammer (2005) nos dice: Recoleccin de correos electrnicos Envo masivo Verificacin de direcciones activas Almacenamiento y compra/venta (pg. 5) Cmo se genera y llega a las cuentas? Jeffrey (2004) enuncia que se genera por Hacer publicidad utilizando como medio el correo electrnico se justifica por su bajo costo, para enviar correo masivo a destinatarios que no se sabe si les interesar un producto, slo necesita de una computadora, una conexin a Internet y una lista de direcciones de correo electrnico a los cuales se desea "beneficiar" con la publicidad de un producto.(pag.6) Andy Walker nos menciona:Recogida de informacin publicada en grupos de noticias (USENET), servidores web, salas de chat y listas de correo (incluso suscribindose a las mismas). De stos extraen no slo direcciones de correo de usuarios (de las cabeceras de los mensajes) sino tambin servidores de correo o pasarelas existentes en Internet.

4 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

La utilizacin de diccionarios de palabras y nombres comunes contra servidores de correo para identificar direcciones vlidas en stos. El ataque a sistemas informticos, bien a travs de intrusiones remotas (habitualmente a lneas con conexin a Internet domstica), o bien a travs del envo de virus o troyanos. (pag.18)

Jeffrey (2004) aade tambin que: Una ms sofisticada, es usar unos programas conocidos como araas (spider), que rastrean pginas de Internet en busca de e-mails. De esa manera, casi cualquier direccin publicada en una pgina WEB, regala la informacin a los spamers. Existe otra forma mucho ms simple y mucho menos lcita, comprar bases de datos con direcciones de correo electrnico. Esta adems de dar a los spamers informacin valiosa, genera utilidades para quienes venden nuestros datos. (pag.6)

1.3 Caractersticas Algunas de las caractersticas ms comunes que presentan este tipo de mensajes de correo electrnico son: La direccin que aparece como remitente del mensaje no resulta conocida para el usuario, y es habitual que est falseada. (A. Zdziarski, 2006, pg. 21) El mensaje no suele tener direccin Reply. . (A. Zdziarski, 2006, pg. 21) Presentan un asunto llamativo. . (A. Zdziarski, 2006, pg. 21) El contenido es publicitario: anuncios de sitios web, frmulas para ganar dinero fcilmente, productos milagro, ofertas inmobiliarias, o simplemente listados de productos en venta en promocin. . (A. Zdziarski, 2006, pg. 21)

5 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

La mayor parte del spam est escrito en ingls y se origina en Estados Unidos o Asia, pero empieza a ser comn el spam en espaol. . (A.Zdziarski, 2006, pg. 21)

1.4 Tipos. Walker (2006) divide el spam segn su origen: Spam que se enva por correo electrnico: van dirigidos a usuarios individuales con mensajes directos que llegan a sus buzones particulares de correo. .(pg. 13) Spam a travs de las listas: se remiten a grupos de noticias, listas de correos y, aunque en otro nivel, a los que utilizan o acceden a los foros de discusin. Los mensajes de spam a travs de listas van dirigidos a aquellas personas que leen los grupos de noticias, haciendo que estos sean menos tiles para los usuarios, a los que abruman con un aluvin de anuncios y mensajes irrelevantes.(pg. 13)

Por otro lado Spammer (2005) los clasifica en: Texto plano (Compre Viagra !!) (pag.17) Texto disfrazado Haga$e Ric000 (pag.17) Texto HTML (con imgenes) (pag.17) Texto con URL Aqu tienes el mensaje que te promet http://venacomprar.com(pag.17) Texto aleatorio + mensaje (en un lugar de la Mancha vi a gra )(pag.17) Malware + Phishing(pag.17)

De manera especial hay que resaltar el pishing, este malware es creado y destinado especficamente para la captura de credenciales bancarias que permiten tener acceso a los activos de los clientes. Estos troyanos se instalan de forma inadvertida en sus sistemas y tienen acceso ilcito a sus credenciales. (Spammer, 2005, pg. 17) 2. FILTRO BAYESIANO 2.1 Definicin. Torres y Castao (1986) nos dicen:6 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

El filtro Bayesiano es la principal tecnologa de `lucha contra el spam' que es un tipo de puntuacin- filtros de spam basados en contenido, analizar el contenido del correo, y calcular la probabilidad de que el mensaje sea spam. Se acumula una lista de caractersticas de los elementos que se suelen ser spam, as como mensajes de correo electrnico bien. Este filtro est basado en el teorema de Bayes para determinar un correo electrnico como spam o no. El teorema probabilstico de Thomas Bayes resulta til cuando conocemos el resultado final de un experimento, pero desconocemos alguno de los pasos intermedios en el que estamos interesados. (pg. 43)

Se basa en el siguiente principio matemtico: La mayora de los sucesos son dependientes y la probabilidad de que un suceso ocurra en el futuro puede ser deducida de las ocurrencias anteriores de dicho suceso.(Sotomayor y Wisniewski, 2001, pg. 78).Torres y Castao (1986) nos dicen: Supongamos que el mensaje se sospecha contiene la palabra "rplica; la frmula utilizada por el software para determinar que se deriva del teorema de Bayes es la probabilidad de que un mensaje es un correo no deseado, sabiendo que la palabra "rplica" est en l;

Es la probabilidad de que un mensaje es un correo no deseado, sabiendo que la palabra "rplica" est en l. Es la probabilidad global de que cualquier mensaje es spam Es la probabilidad de que la palabra "rplica" aparece en los mensajes de spam. Es la probabilidad global de que un mensaje dado no es spam (es "jamn"). Es la probabilidad de que la palabra "rplica" aparece en los mensajes de manera exagerada. (pg. 56)

2.2 Antecedentes El primer programa de filtrado de mail-conocido que utilizo un clasificador de Bayes fue el programa iFile Jason Rennie, lanzado en 1996. El programa fue7 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

utilizado para clasificar el correo en carpetas. Sin embargo, en 2002, Paul Graham fue capaz de mejorar en gran medida la tasa de falsos positivos, por lo que podra ser utilizado por s misma como un filtro de spam. Este trabajo fue poco despus a desplegarse en los filtros de spam comerciales. (Sotomayor y Wisniewski, 2001, pg. 9). Sotomayor y Wisniewski (2001) seala que para lograr un buen porcentaje de acierto (99,9x%), es necesario entrenar previamente al filtro correspondiente a cada usuario; Entre 1000 y 2500 mensajes inocentes, Entre 100 y 200 mensajes spam. Algunas de las funciones de DSPAM no se activan hasta recibir al menos 2500 mensajes inocentes. (pg. 21)

2.3 Caractersticas El filtro bayesiano necesita una base de datos que contenga palabras y otros criterios (direcciones IP, hosts,) para calcular la probabilidad de que un correo determinado sea spam, sacados de un ejemplo de correo basura y de correo vlido. (Sotomayor y Wisniewski, 2001, pg. 14). El filtro bayesiano aprende a detectar el correo basura y legtimo analizando la cabecera, los adjuntos y el contenido de los mensajes recibidos. (M. Sahami, S.Dumais, D. Heckerman, E. Horvitz, 1998, pg. 86). Hay dos carpetas, Spam y no Spam, donde se puede ir depositando los correos: si son Spam, en la carpeta Spam, y si alguno lo marca como Spam y no lo es, en la capeta NoSpam para que el sistema pueda identificarlo como tal. El filtro Bayesiano obtiene sus datos mediante el anlisis de estos mensajes. Haciendo esto regularmente, el filtro de spam "aprende" a distinguir mejor los mensajes de Spam (M. Sahami, S. Dumais, D. Heckerman, E. Horvitz, 1998, pg. 87).

Graham (2003) nos dice: Los filtros de spam Bayesianos aprenden, comparan y se adaptan.(pg. 32). Graham (2003) enuncia: Ventajas Se adapta a si mismo a lo largo del tiempo Es adaptable a cada usuario / grupo Multilinge e internacional Difcil de engaar Rpido aprendizaje Tiene en cuenta todo el mensaje y reconoce las palabras que identifican spam y las que8 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

Identifican ham. Inconvenientes Requiere aprendizaje ( 2 semanas) Degradacin de la base de datos (pag.90) Se define dos archivos en el filtraje bayesiano: Falsos Negativos: correo que es spam y no es detectado como tal por el filtro antispam, son los errores ms habituales. (Graham, 2003, pg. 40) Falsos Positivos: correo legtimo que es detectado como spam por el filtro antispam, son los errores mas peligrosos (Graham, 2003, pg. 40)

METODOLOGA 1. Mtodos de investigacin El estudio a llevarse a cabo, se cimentar sobre la aplicacin de la investigacin descriptiva, bibliogrfica y de campo. Como expone Moreno A., (2000) la investigacin descriptiva tiene por objetivo:La investigacin descriptiva tiene por finalidad presentar aspectos diversos del objeto, sin que se alcance otra forma de explicacin, ni se busque interrelacionar esos aspectos logrados. La investigacin descriptiva es un estudio de fundamentacin emprica y constituye un grado superior al de la investigacin simplemente exploratoria, aunque muchas veces se fusione con ella. La investigacin descriptiva, no llega a constatar una teora cientfica, ni tiene asideros suficientes para la ratificacin de una hiptesis cientfica (p. 55).

La realizacin de este estudio, se enfocar hacia la descripcin, anlisis e interpretacin de los fenmenos y parmetros implicados en la generacin y llegada de correos spam a los usuarios, con el fin de precisar la fuente de generacin de dichos correos, resulta as, indispensable la aplicacin de la investigacin descriptiva. La investigacin bibliogrfica de acuerdo a la pgina web http://www.monografias.com/trabajos7/sisinf.shtml consiste en:La revisin bibliogrfica de tema para conocer el estado de la cuestin. La bsqueda, recopilacin, organizacin, valoracin, crtica e informacin 9 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

bibliogrfica sobre un tema especfico tiene un valor, pues evita la dispersin de publicaciones o permite la visin panormica de un problema. La investigacin bibliogrfica es aquella etapa de la investigacin cientfica donde se explora qu se ha escrito en la comunidad cientfica sobre un determinado tema o problema. Qu hay que consultar, y cmo hacerlo?

La compilacin y seleccin de informacin adecuada permitir discernir y plantear razonamientos que fundamentarn an ms el estudio a realizarse para llegar a cumplir la hiptesis planteada. Al referirse a la investigacin de campo, Zorrilla (1993) en la pgina web: http://www.AI/investipos.htm la define as:La investigacin de campo o investigacin directa es la que se efecta en el lugar y tiempo en que ocurren los fenmenos objeto de estudio. Se basa en informaciones obtenidas directamente de la realidad, permitindole al investigador cerciorarse de las condiciones reales en que se ha conseguido los datos. En otras palabras, el investigador efecta una medicin de los datos. Sin embargo, qu tanto datos se pueden obtener considerando las restricciones de cada estudio como por la carencia de recursos materiales, humanos, monetarios, fsicos. Este tipo de investigacin distingue entre el lugar donde se desarrolla la investigacin, si las condiciones son las naturales en el terreno de los acontecimientos tenemos una investigacin de campo, como los son las observacio- nes en un barrio, las encuestas a los empleados de las empresas, el registro de datos relacionados con las mareas, la lluvia y la temperatura en condiciones naturales (p. 62).

Los datos provenientes directamente de la fuente real permitirn ser ampliamente usados y con total certeza, en el proceso investigativo de el mtodo de degeneracin de correos spam. 2. Tcnicas de Investigacin 2.1 .Tcnicas e instrumentos de recoleccin de datos Para la ejecucin de este estudio se emplearn tcnicas e instrumentos para recabar informacin de origen primaria como secundaria. Como cita el autor Moreno A., (2000), las fuentes primarias se definen como:

10 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

La investigacin de fuentes primarias son aquellas en las que el investigador directamente o por medio de personal auxiliar, toma la informacin de las personas, lugares o hechos, que conforman el objeto de investigacin en forma directa. Por lo dicho se entiende que la investigacin de fuente primaria recaba la informacin de quien la tenga, sin importar que otros investigadores tambin lo hayan hecho o lo estn haciendo. Las fuentes de informacin primaria contienen informacin original (p. 48).

La informacin primaria proceder del estudio a realizarse sobre datos de exploracin en los servidores de correos electrnicos con sus respectivas bases datos ya existentes. De acuerdo a la pgina web http://www.rrppnet.com.ar/tecnicasdeinvesti- gacin.htm la observacin directa consiste en: La observacin directa consiste en que el observador o investigador se pone en contacto personalmente con el hecho o fenmeno que trata investigar. La observacin directa ser una de las fuentes de informacin primaria que proveer de datos reales de servidores de internet propios de los hechos a investigar, ya que se receptar dicha informacin directamente de los correos electrnicos , as mismo, los filtros bayesianos proporcionarn directamente datos para su posterior anlisis e interpretacin. El detalle de los acontecimientos que se presenten durante la observacin directa, sern registrados en nuevas bases de datos creadas por los servidores y procesados directamente por los filtros bayesianos con el mtodo probabilstico y estadstico de Bayes. Segn lo enuncia Andino P., (1994), las fuentes secundarias son:Las fuentes secundarias de informacin son las que provienen de una actividad investigativa realizada por otro investigador, por grupo de investigadores o por instituciones especializadas y que han sido difundidas por algn medio. Se encuentran caracterizadas de acuerdo al medio de difusin en las que se encuentran la informacin. Para obtener la informacin secundaria nunca se establece contacto directo con el objeto de estudio (p. 87).

11 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

Como fuentes secundarias, se utilizar documentos tcnicos, textos, artculos, informacin web, y dems documentos informativos consultados y proporcionados por Servidores ya existentes.2.2. Anlisis y discusin de datos

Los datos que se obtendrn durante la consecucin del estudio sern revisados y procesados mediante el ordenamiento, clasificacin, tabulacin y caracterizacin de los mismos, estableciendo de esta forma una jerarquizacin y correlacin de la informacin para su anlisis e interpretacin. El anlisis y discusin de los datos versar sobre la determinacin de los correos spam obtenidos de la informacin recabada del estudio directo de campo y laboratorio, adems del anlisis de filtros bayesianos, interpretacin de los mtodos probabilsticos, estudio de del teorema de bayes, anlisis que permita de manera objetiva llegar a sustentar la hiptesis planteada.3. Materiales

Nuestro sistema ser implementado con las herramientas actuales y adaptables a los requerimientos exigidos por el mismo, permitiendo con esto tener una gran eficiencia, un fcil uso y a su vez tenga una mayor escalabilidad. Las herramientas a utilizar son mostradas en las siguientes tablas y se las detallan en los siguientes puntos a tratar: SOFTWARE Windows 2003 Server Exchange Server 2003 DESCRIPCIN Sistema operativo Contenedor de correos

Tabla 1. Software recomendado para el desarrollo del Servidor de Correo

SOFTWAREWindows XP Professional Visual C# Net SQL Server 2005 Crystal Reports

DESCRIPCIN Sistema operativoAmbiente de desarrollo Motor de base de datos Generador de reportes

Tabla 2. Software recomendado para el desarrollo del Cliente

12 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

RESULTADOS

Al recabar la informacin tcnica cientfica, tanto en forma bibliogrfica como a partir de las pruebas o ensayos de campo, se podr emitir resultados y plantear as las propuestas y soluciones ms adecuadas a la hiptesis planteada. Como resultado se obtuvo una herramienta para podernos Defender de los mensajes basura de algunas maneras, aunque no hay mtodos infalibles. Por un lado, con unas ciertas normas que debemos seguir ante los mensajes SPAM que recibamos. Por otro, filtrando los mensajes que nos llegan para intentar recibir la menor cantidad posible de este correo no solicitado. En la parte de que proporcionamos a los usuarios conocer los tipos contactos que no pertenecen a su lista de favorito, Se les permite determinar si estos contactos al que llamamos Contactos indirectos pueden pertenecer a su lista de contactos personales o a un determinado grupo el cual podramos tener personalizados de acuerdo a los contactos de nuestra conveniencia, o si estos contactos indirectos estn repercutiendo en nuestro buzn de correos, enviando tipos de correos denominados SPAM para lo cual podramos considerarlos como un usuario cuyos correos son de no importancia y de esta manera poder clasificar a este usuario. Finalmente en la interfaz que proporcionamos al Administrador de correo, en la que podr encontrar una clasificacin de usuario por el espacio de disco que ocupan sus correos y por el nmero de correos SPAM que reciben los mismos, se obtuvo como resultado diferentes grupos de usuarios entre los que ocupan mayor espacio de disco y as mismo lo que mayor correo basura reciben en sus correo.

13 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

CRONOGRAMA

JUNIO ETAPAS DE TRABAJO / 2009 1 Recopilacin de informacin bibliogrfica Elaboracin y revisin del plan de tesis Elaboracin y revisin de denuncia de grado Estudio y anlisis de informacin recabada CAPTULO I: Introduccin CAPTULO II: Marco Terico CAPTULO III: Metodologa CAPTULO IV: Anlisis de Datos CAPTULO V: Discusin e interpretacin de resultados CAPTULO VI: Conclusiones y recomendaciones Elaboracin y revisin primer borrador Elaboracin y revisin segundo borrador Elaboracin y presentacin de informe final de tesis Predefensa y defensa de tesis Semanas 2 3 4 1

JULIO Semanas 2 3 4 1

AGOSTO Semanas 2 3 4 1

SEPTIEMBRE Semanas 2 3 4 1

OCTUBRE Semanas 2 3 4 1

NOVIEMBRE Semanas 2 3 4

14 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

Conclusiones:

Con una tecnologa moderna como el uso de los filtros bayesianos los correos electrnicos buscan con su mxima capacidad en desparecer los spam; se puede atenuar, pero no acabar. Por esto existen las demandas de los mtodos para tratar de superar con el problema, pero en gran cantidad el uso de los filtros bayesianos es el mejor. La tarea de filtrado spam, aplicado a mtodos de categorizacin de texto y usando mtodos de aprendizaje automtico es una tarea muy importante actualmente, tanto desde el punto de vista de la investigacin como desde la perspectiva comercial. No hay una solucin al problema de los spam por no haber un mtodo tan efectivo que finalmente los elimine, pero el uso del los filtros bayesianos es uno de los mas acertados ya que rompe con un gran porcentaje el ingreso de estos spam, disminuyendo el negocio rentable de los que los producen. Una cuestin importante a la hora de elegir un mtodo tan efectivo para tratar de detener el filtrado de los spam es determinar la estrategia mas adecuada, en la cual consiste en filtrar el mayor nmero posible de correos vlidos, o relajar las condiciones para dejar pasar ms correos y evitar el rechazo de correos correctos. Los spammers aprovechan nuevas tecnologas para el uso de los spam, ya que estas personas son relativamente expertos, pero con el uso de filtros bayesianos se alcanza un ndice de efectividad para eliminarlos, con lo cual determina que los spammers atacan pero los filtros se adaptan.

15 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos

Bibliografa:

Nieves, Antonio (2010). Probabilidad y Estadstica para Ingeniera. Mxico: McGRAW-HILL Espaa. Espaa. Berger, A. (2000).Aplica mtodos efectivos para librarte elspam Extrado el 07 de julio de 2012 desde http://www.onlynux.com/articulos/e_articulo_filtro_email_librate_spam.shtml Posluns, Jeffrey (2004). Inside the spam cartel. Espaol Aguirre, Victor (1986). Introduccion al filtro de Kalman con un enfoque bayesiano. Mxico. Velasco, Gabriel. Y Piotr, Marian (2001). Probabilidad y Estadistica para ingeniera y ciencias. Espaa. Dumais, S(1998). A bayesian approach to filtering junk e-mail. Korth, Henry F. y Silberschatz, Abraham (1993). Fundamentos de Base de Datos. Espaa: McGRAW-HILL Stout, Rick (1997).Optimizacin de servidores. Espaa: McGRAW-HILL Plaza, Javier (1998).Desarrollo de aplicaciones. Espaa: McGRAW-HILL Zdziarski, Jonathan (2005). Bayesian Content Filtering and the Art of Statistical. Espaa. Walker, Andy (2006). Manual Imprescindible De Seguridad.

16 teorema probabilstico de Thomas Bayes (estadstica Bayesiana); sparms; virus troyanos