“MÉTODOS KERNEL PARA EL ESTUDIO DEL DESARROLLO DE BIOFILM EN LOS SISTEMAS DE DISTRIBUCIÓN DE...

7
XII Simposio Iberoamericano sobre planificación de sistemas de abastecimiento y drenaje “MÉTODOS KERNEL PARA EL ESTUDIO DEL DESARROLLO DE BIOFILM EN LOS SISTEMAS DE DISTRIBUCIÓN DE AGUA POTABLE” E. Ramos Martínez (1), M. Herrera (2), J. Izquierdo (3), R. Pérez García (4) (1) IMM-FluIng, Universitat Politècnica de València. C. de Vera s/n, 46022 Valencia, España +34 96 387 7007, [email protected] (2) BATir - Université libre de Bruxelles. Av. F. Roosevelt, 50 (CP 194/2), B-1050 Bruselas, Bélgica +32 2 650 2759, [email protected] (3) IMM-FluIng, Universitat Politècnica de València. C. de Vera s/n, 46022 Valencia, España +34 96 387 7007, [email protected] (4) IMM-FluIng, Universitat Politècnica de València. C. de Vera s/n, 46022 Valencia, España +34 96 387 7007, [email protected] RESUMEN El biofilm genera numerosos problemas en los sistemas de distribución de agua potable. Los estudios sobre la influencia conjunta que las características de estos sistemas tienen en el desarrollo de biofilm, son escasos debido a su complejidad. Recurriendo a técnicas de aprendizaje automático hemos generado una base de datos completa y lo suficientemente extensa como para ser capaces de estudiar el efecto que la interacción del conjunto de características físicas e hidráulicas de estos sistemas tiene sobre el desarrollo de biofilm. Para ello proponemos los métodos Kernel por su precisión y sencillez en el descubrimiento de patrones en problemas complejos. Palabras claves: Biofilm, sistemas de distribución de agua potable, métodos Kernel, aprendizaje automático. ABSTRACT Biofilm is responsible of many problems in the drinking water distribution systems. Studies about the joint influence that the characteristics of these systems have on biofilm development are scarce due to its complexity. Using machine learning techniques we have generated a comprehensive and extensive enough database to be able to study the effect that the set of the physical and hydraulic characteristics of these systems have on biofilm development. We propose Kernel methods to this aim for them accuracy and simplicity discovering patterns when addressing complex problems. Key words: Biofilm, drinking water distribution systems, Kernel methods, machine learning. SOBRE EL AUTOR PRINCIPAL Eva Ramos Martínez: Estudiante de doctorado en el Departamento de Ingeniería Hidráulica y del Medio Ambiente de la Universitat Politècnica de València (España) y miembro del grupo de investigación FluIng- IMM. Licenciada en Biología por la Universidad del País Vasco y con dos masters; Máster en Biodiversidad, Funcionamiento y Gestión de Ecosistemas (Universidad del País Vasco, España) y Máster en Ingeniería Hidráulica y del Medio Ambiente (Universitat Politècnica de València, España). Ha participado en varios congresos a nivel internacional y posee publicaciones en revistas científicas. Actualmente sus líneas de investigación se centran en la evaluación del desarrollo del biofilm en los sistemas de distribución de agua potable mediante el uso de herramientas de ayuda a la toma de decisiones y análisis inteligente de datos.

description

“MÉTODOS KERNEL PARA EL ESTUDIO DEL DESARROLLO DEBIOFILM EN LOS SISTEMAS DE DISTRIBUCIÓN DE AGUA POTABLE”

Transcript of “MÉTODOS KERNEL PARA EL ESTUDIO DEL DESARROLLO DE BIOFILM EN LOS SISTEMAS DE DISTRIBUCIÓN DE...

  • XII Simposio Iberoamericano sobre planificacin de sistemas de abastecimiento y drenaje

    MTODOS KERNEL PARA EL ESTUDIO DEL DESARROLLO DEBIOFILM EN LOS SISTEMAS DE DISTRIBUCIN DE AGUA POTABLE

    E. Ramos Martnez (1), M. Herrera (2), J. Izquierdo (3), R. Prez Garca (4)

    (1) IMM-FluIng, Universitat Politcnica de Valncia. C. de Vera s/n, 46022 Valencia, Espaa+34 96 387 7007, [email protected]

    (2) BATir - Universit libre de Bruxelles. Av. F. Roosevelt, 50 (CP 194/2), B-1050 Bruselas, Blgica+32 2 650 2759, [email protected]

    (3) IMM-FluIng, Universitat Politcnica de Valncia. C. de Vera s/n, 46022 Valencia, Espaa+34 96 387 7007, [email protected]

    (4) IMM-FluIng, Universitat Politcnica de Valncia. C. de Vera s/n, 46022 Valencia, Espaa+34 96 387 7007, [email protected]

    RESUMEN

    El biofilm genera numerosos problemas en los sistemas de distribucin de agua potable. Los estudios sobrela influencia conjunta que las caractersticas de estos sistemas tienen en el desarrollo de biofilm, son escasosdebido a su complejidad. Recurriendo a tcnicas de aprendizaje automtico hemos generado una base dedatos completa y lo suficientemente extensa como para ser capaces de estudiar el efecto que la interaccindel conjunto de caractersticas fsicas e hidrulicas de estos sistemas tiene sobre el desarrollo de biofilm. Paraello proponemos los mtodos Kernel por su precisin y sencillez en el descubrimiento de patrones enproblemas complejos.

    Palabras claves: Biofilm, sistemas de distribucin de agua potable, mtodos Kernel, aprendizajeautomtico.

    ABSTRACT

    Biofilm is responsible of many problems in the drinking water distribution systems. Studies about the jointinfluence that the characteristics of these systems have on biofilm development are scarce due to itscomplexity. Using machine learning techniques we have generated a comprehensive and extensive enoughdatabase to be able to study the effect that the set of the physical and hydraulic characteristics of thesesystems have on biofilm development. We propose Kernel methods to this aim for them accuracy andsimplicity discovering patterns when addressing complex problems.

    Key words: Biofilm, drinking water distribution systems, Kernel methods, machine learning.

    SOBRE EL AUTOR PRINCIPAL

    Eva Ramos Martnez: Estudiante de doctorado en el Departamento de Ingeniera Hidrulica y del MedioAmbiente de la Universitat Politcnica de Valncia (Espaa) y miembro del grupo de investigacin FluIng-IMM. Licenciada en Biologa por la Universidad del Pas Vasco y con dos masters; Mster en Biodiversidad,Funcionamiento y Gestin de Ecosistemas (Universidad del Pas Vasco, Espaa) y Mster en IngenieraHidrulica y del Medio Ambiente (Universitat Politcnica de Valncia, Espaa). Ha participado en varioscongresos a nivel internacional y posee publicaciones en revistas cientficas. Actualmente sus lneas deinvestigacin se centran en la evaluacin del desarrollo del biofilm en los sistemas de distribucin de aguapotable mediante el uso de herramientas de ayuda a la toma de decisiones y anlisis inteligente de datos.

  • ANTECEDENTES E INTRODUCCINEn los ltimos aos, diferentes factores han hechoque aumenten las expectativas sobre la calidad delagua servida, aumentando as el inters en lainvestigacin, proteccin y control de la calidad delagua de consumo humano. Es por ello que losgestores encargados de los servicios de agua,actualmente, estn centrando sus esfuerzos en laetapa de distribucin, tras el tratamiento, por ser laetapa en la que la calidad del agua puedeexperimentar un mayor deterioro y que adolece deun menor control.

    Recientemente, se est tomando conciencia crecientedel papel que el biofilm juega en el interior de lastuberas como uno de los principales agentes queinfluyen en el deterioro de la calidad del aguadurante su distribucin. El biofilm est formado porcomplejas comunidades de microorganismos lo quesupone un riesgo sanitario por su papel como refugiode patgenos; adems, tambin puede serresponsable del deterioro esttico del agua,biocorrosin y consumo de desinfectante, entreotros. Son varias las investigaciones que se hanllevado a cabo en este rea. Sin embargo, losestudios realizados en relacin a la influenciaconjunta de las distintas caractersticas de lossistemas de distribucin de agua potable (DWDSsdel ingls, Drinking Water Distribution Systems) enel desarrollo de biofilm, excepto notablesexcepciones, son escasos, debido a la complejidadde la comunidad y del entorno estudiado. Si bien,compilando datos de diferentes estudios sobre eldesarrollo de biofilm en tuberas y recurriendo atcnicas de aprendizaje automtico hemos generadouna base de datos completa y lo suficientementeextensa como para ser capaces de estudiar el efectoque la interaccin del conjunto de caractersticasfsicas e hidrulicas de los DWDSs relevantes en eldesarrollo de biofilm tiene sobre estas comunidades.

    El presente trabajo se centra en estudiar lasinteracciones existentes entre el conjunto de estasvariables y el desarrollo de biofilm en funcin delgrado de desarrollo del mismo (bajo, medio o alto).De esta manera, se pretende profundizar en elestudio del biofilm en los DWDSs, logrando unamayor comprensin de las causas reales que hacenque el biofilm exista a diferentes niveles dentro deestos sistemas. Para alcanzar este objetivo se hanpropuesto los mtodos Kernel por la precisin ysencillez con la que abordan problemas complejos.Estos mtodos proporcionan un marco poderoso yunificado para el descubrimiento de patrones, dandolugar a algoritmos que pueden actuar sobre tipos

    generales de datos y buscar tipos generales derelaciones. Tambin proporcionan una forma naturalde combinar e integrar los diferentes tipos de datos.La combinacin del apropiado diseo Kernel yalgoritmos Kernel relevantes ha dado origen a unapoderosa y coherente clase de mtodos, cuyaspropiedades computacionales y estadsticas sonampliamente utilizadas.

    Sintetizando, este proyecto profundiza en el estudiodel biofilm y logra una mayor comprensin de suinteraccin con el medio en los DWDSs, sentandolas bases para el desarrollo de una herramienta capazde identificar y predecir las condiciones quefavorecen un alto desarrollo de biofilm en estossistemas.

    BASE CIENTFICO TERICAEn el presente trabajo se ha optado por el uso de lasmquinas de soporte vectorial (SVMs, del ingls,Support Vector Machines) para estudiar la influenciaque tienen en el desarrollo de biofilm el conjunto delas caractersticas hidrulicas y fsicas de losDWDSs que individualmente se sabe son relevantessobre estas comunidades de microorganismos. Laaplicacin de las SVMs para la clasificacin delbiofilm utilizar, de manera conjunta, las variablesfsicas y las hidrulicas, tenidas en cuenta en la basede datos (Ramos-Martnez at al., 2013). El estudio secompletar, comparando la bondad de los resultadosobtenidos con los obtenidos mediante otras tcnicasde aprendizaje automtico que han demostrado unaalta precisin en estudios de clasificacin (Witten etal., 2011). Las SVMs se basan en los mtodosKernel, que son algoritmos especializados en elanlisis de patrones (Shawe-Taylor y Cristianini,2006; Schlkopf y Smola, 2002) que proporcionanuna forma eficiente de detectar relaciones nolineales. Su funcionamiento representa una ventajaespecial en los casos no-lineales (de resolucincompleja). stos se proyectan desde su espacioinicial a un espacio de alta dimensionalidad donde sepueden analizar mediante funciones lineales. Estacaracterstica se complementa en la prctica con elllamado "kernel trick" (Aizerman et al., 1964),gracias al cual no es necesaria una representacinexplcita de los datos en ese espacio de altadimensin sino que bastar con conocer la funcinque mapea los datos de un espacio a otro para poderhacer los anlisis. Estas funciones son conocidas porfunciones kernel y han de cumplir muy escasosrequisitos, como ser semi-definidas positivas (elcaso ms sencillo es el producto interior de unvector). Resumiendo, gracias a las SVMs podremosclasificar mediante hiperplanos (lineales) grupos

  • distribuidos de manera no-lineal, obteniendo,adems, una solucin exacta y reproducible delproblema (a diferencia de otros mtodos quetambin tratan estas clasificaciones no-lineales, talescomo las redes neuronales: que tienen una solucinheurstica y matemticamente no reproducible). LasSVM clsicas trabajan con una clasificacin binaria.En este artculo se hace uso de clasificaciones multi-clase que nos permitan clasificar el biofilm en las 3categoras prefijadas por la base de datos: alto,medio y bajo. Esto nos permite determinar qutuberas sern propensas a desarrollar una mayorcantidad de biofilm en su interior.

    METODOLOGAEn este trabajo se estudia el efecto conjunto que lascaractersticas de los DWDSs tienen sobre eldesarrollo de biofilm. Para ello se dispone de unabase de datos obtenida mediante la compilacin dedatos de diferentes estudios de desarrollo de biofilmen tuberas, y la aplicacin de tcnicas deaprendizaje automtico para poder lidiar con laheterogeneidad en las medicin de los datos, lamultiescalaridad, la falta de datos y las diferentescodificaciones utilizadas (Ramos-Martnez et al.,2013). De esta manera hemos generado una base dedatos con 210 casos completos, lo suficientementeextensa como para permitir estudiar el efecto que lainteraccin del conjunto de caractersticas fsicas ehidrulicas de los DWDSs relevantes en eldesarrollo de biofilm tiene sobre estas comunidades.Las variables que conforman la base de datos fueronencontradas relevantes para el desarrollo de biofilmcuando fueron estudiadas individualmente pordiferentes investigadores. Estas variables son:

    (i) Velocidad de flujo. Con la velocidad deflujo aumenta la transferencia de masade nutrientes favoreciendo el desarrollodel biofilm (Lehtola et al., 2006). Sinembargo, velocidades especficas deentre 3-4 m/s pueden favorecer sudesprendimiento (Cloete et al., 2003).

    (ii) Rgimen hidrulico. Puede ser laminar oturbulento. Algunos biofilms en rgimenturbulento tienden a ser ms activos,tener mayor densidad celular, y distintamorfologa, que los biofilms en flujolaminar (Simoes et al., 2007).

    (iii)Material de la tubera. Puede ser de metal,plstico, o cemento. En general, lastuberas de metal tienden a desarrollarms biofilm que las de cemento, y stasms que las de plstico (Niquette et al.,2000). Esto se debe a que las tuberas

    con una superficie ms rugosa tienen unmayor potencial para el crecimiento debiofilm (Chowdhury, 2011). Lassuperficies rugosas proporcionan unamayor superficie de crecimiento para elbiofilm y lo protegen de las fuerzas decorte del agua.

    (iv) Edad de las tuberas. La acumulacin desustancias disueltas y de corrosin en lastuberas de mayor edad puede aumentarsu rugosidad (Christensen, 2009), lo quefavorece el desarrollo de biofilm.Adems, los depsitos ms viejostienden a tener mayor biomasa ycontenido de bacterias (Chowdhury,2011). Dividimos los tubos en jovenes,de edad media y viejos (Tabla 1).

    (v) Edad del agua. Cuanto ms tiempo est elagua en el sistema, mayor ser elconsumo de desinfectante residual, ladeposicin de sedimentos, y el aumentode la temperatura (EPA, 2002). Todosellos son factores que favorecen eldesarrollo del biofilm. En nuestro caso,hemos creado un ndice sintticollamado "edad del agua. Para elloutilizamos el tiempo de retencinhidrulica (h) (HRT, del ingls,Hydraulic Retention Time) y ladistancia hasta el punto de cloracin(km) ya que ambos aumentan con laedad del agua en el sistema. Con el finde normalizarlos, escalamos cadavariable, HRT y la distancia hasta elpunto de cloracin. El valor mnimo seresta al valor actual y se divide por ladiferencia entre los valores mximo ymnimo. Al combinar dos variables enuna sola, a fin de no sesgar el estudio seutiliza la proporcin inversa existente enlos datos originales. HRT se multiplicapor un factor de 0,3, mientras que ladistancia hasta el punto de cloracin sepondera con un factor de 0,7: ya quedisponemos de 2,5 veces ms datos deHRT que de distancia al punto decloracin, por lo que HRT se multiplicapor un factor de casi 2,5 veces mspequeo que el factor que multiplica ladistancia al punto de desinfeccin. Enconsecuencia, las dos variables tienenuna influencia comparable en lageneracin del ndice. Por ltimo, se re-escalan, una vez ms, los valoresobtenidos. Por lo tanto, la edad del aguaes un ndice entre 0 y 1, donde los

  • valores cercanos a uno correspondencon las mayores edades de agua.

    (vi) Biofilm. Elegimos el recuento dehetertrofos en placa (HPC/cm2) comoel mtodo de cuantificacin de biofilm.Aunque hay otros mtodos, este es elms utilizado, y para el que ms datoshay disponibles. Basndonos en ladistribucin de datos observada y en elcriterio de expertos, se divide endesarrollo de biofilm en bajo, medio yalto (Tabla 1).

    Las variables y categoras estudiadas en esta base dedatos se describen en la Tabla 1. Es en esta base dedatos donde se ha intentado clasificar, de la manerams eficiente posible, las diferentes categoras dedesarrollo de biofilm en funcin de lascaractersticas estudiadas. Para ello nos hemoscentrado en las SVM basadas en los mtodos Kernelbeneficindonos de las ventajas que ofrecen ycomparando la bondad de sus resultados con el deotras tcnicas de clasificacin.

    Con el fin de encontrar los mejores resultados sehan utilizado diferentes funciones Kernel (Tabla 2).En todos los casos, una tercera parte de la base dedatos se ha utilizado para test y las otras dos partespara entrenamiento y validacin. Los parmetros C ygamma se buscan por Grid Search, estableciendouna malla de posibles combinaciones donde se buscasu ptimo, entre los lmites [1, 100] y [0,1],respectivamente. La malla se organiza as para todoslos posibles Kernels. La bondad de los resultados seha estimado a travs de los ndices Diagonal yKappa. Diagonal calcula el porcentaje de datos quese encuentran en la diagonal principal de cada matrizde confusin para cada prueba y Kappa es unacorreccin del ndice Diagonal, que determina hastaqu punto la concordancia observada es superior a laque es esperable obtener por puro azar para cadasolucin (Landis y Koch, 1977).

    Las otras tcnicas de clasificacin utilizadas hansido las reglas y los rboles de clasificacin. En elcaso de las reglas se han usado el algoritmo JRip(Cohen, 1995; Rajput et al., 2011) y NNge (Brent,1995; Sylvain, 2002) y en el de los rboles losalgoritmos J48 (implementacin del algoritmo C4.5)(Quinlan, 1993; Rajput et al., 2011) y NBTree(Webb et al., 2005).

    PRESENTACIN DE RESULTADOSAl aplicar las diferentes metodologas declasificacin expuestas anteriormente sobre la base

    de datos discretizada, se observa que en el caso delas SVM el mejor resultado se obtiene con la funcinRBF (Tabla 3), mientras que el mejor resultado alaplicar otras tcnicas de clasificacin se observa trasaplicar el rbol de clasificacin con el algoritmo J48.Aunque los resultados en ambos casos son muyparecidos, el valor de Kappa en el caso de la SVMcon RBF es mayor que en el del rbol declasificacin con J48, siendo este ndice mscompleto que el diagonal al tener en cuenta tambinlos falsos negativos no solo los aciertos. Por lo quese puede decir, que observando todos los anlisis, elmejor resultado se obtiene al aplicar la SVM con lafuncin RBF.

    Tabla 1. Variables y categoras de la base dedatos.

    BIOFILM(HPC/cm2)

    VELOCIDAD DE FLUJO(m/s)

    Bajo [0-103]Medio [104-106]

    Alto [107]

    Baja [0-0.7]Media [0.8-1.7]Alta [1.8-3.5]

    REGIMENHIDRULICO

    EDAD DEL AGUA

    LaminarTurbulento

    -

    Baja [0-0.3]Media [0.4-0.6]

    Alta [0.7-1]EDAD TUBERIA

    (aos)MATERIAL TUBERIA

    Joven [0-10]Mediana [11-30]

    Vieja [30]

    MetalPlsticoCemento

    Tabla 2. Variables y categoras de la base dedatos.

    Kernel Expresin

    RBF

    LinealPolinmicaSigmoidea

    Tabla 3. Resultados obtenidos al aplicar lasdiferentes funciones de las SVM en la base

    de datos discretaM-

    TODOSKERNEL

    RBF Lineal Polin-mica

    Sigmo-idea

    Diag. 0.757 0.757 0.614 0.685Kappa 0.533 0.512 0.283 0.359

    Segn este resultado y siguiendo los mrgenes paravalorar el grado de acuerdo en funcin del ndiceKappa que propusieron Landis & Koch en 1977(Tabla 5) se concluye que se ha obtenido un gradode acuerdo moderado. As, con el objetivo demejorar los resultados obtenidos, seguimos

  • trabajando con las SVM utilizando, en este caso, lamxima informacin disponible. As decidimosaplicar las diferentes SVM a la base de datos quetenamos en un principio, antes de su discretizacin,es decir, a la base de datos con datos mixtos (Tabla1). El procedimiento a seguir fue el mismo que elcaso de la base de datos discreta. En este caso, elmejor resultado se obtiene en el caso de la funcinlineal. Se observa una mejora en los resultados,pasando de tener un grado de acuerdo moderado atener un grado de acuerdo bueno (Tabla 6). Una vezobtenidos estos resultados con el fin de observar sies posible mejorar an ms la clasificacin yaprovechando las posibilidades que las SVM y losmtodos Kernel ofrecen aplicamos Multi-kernel a labase de datos mixta. Se trata de uno de los ltimosretos en mtodos Kernel, trabajar con Multi-kernelen el caso de tratar con mltiples tipos de datos(Gonen y Alpaydin, 2011). El Multi-kernel en lasSVM est idealmente adaptado para el problema dela integracin de datos, ya que permite convertirdistintos tipos de datos en un formato comnutilizable llevando a cabo una combinacinponderada de tantos diferentes Kernel como tipos dedatos hay en la base de datos. En nuestro caso alhaber dos tipos de datos (discretos y continuos)utilizamos dos tipos de funciones Kernel diferentes,RBF, para los datos continuos, y lineal para los datosdiscretos. En este caso, los resultados vuelven amejorar (Tabla 7). Aunque se sigue teniendo ungrado de acuerdo bueno, ahora se aproxima ms ungrado de acuerdo muy bueno.

    Tabla 4. Resultados obtenidos al aplicar lasdiferentes tcnicas de clasificacin en la

    base de datos discretaMTO-DOSDE

    CLASIFI-CACIN

    Reglas declasificacin

    rboles declasificacin

    JRip NNge J48 NBTree

    Diag. 0.7605 0.7464 0.7764 0.7605Kappa 0.5008 0.4758 0.5239 0.5008

    ANLISIS DE RESULTADOSEste estudio ofrece una visin general de un trabajoinnovador que utiliza los mtodos Kernel como unaherramienta interesante en este rea, permitiendo eluso de los conocimientos adquiridos sobre eldesarrollo de biofilm en los DWDSs de una maneraprctica y eficiente. Adems, posibilitando tener encuenta el efecto de la interaccin entre lascaractersticas hidrulicas y fsicas de los DWDSs,relevantes en el desarrollo del biofilm.

    Tabla 5. Valoracin en funcin del ndiceKappa

    KAPPA GRADO DE ACUERDO

  • CONCLUSIONES, RECOMENDACIONES,Y TRABAJO FUTURO

    La complejidad de la comunidad y el medioambiente estudiados es la razn por la que existe unaescasez de trabajos que estudien la influenciaconjunta que las caractersticas de los DWDSstienen sobre el desarrollo del biofilm. En este trabajohemos elegido los mtodos Kernel para abordar esteproblema por su capacidad de recoger lainformacin de una manera eficiente y adecuada,adems, de por el hecho de que su adaptacin essimple, en contraste con otros mtodos deaprendizaje automtico. Multi-kernel ha demostradoser el mejor enfoque para este objetivo. Lacombinacin de los mtodos lineales y RBF permiteutilizar todo el conocimiento disponible, sin perderla informacin al discretizar los datos.

    El conocimiento obtenido mediante este estudiopersigue el desarrollo de una herramienta mscompleja de ayuda a la toma de decisiones capaz depredecir qu condiciones de los DWDSs favorecenel desarrollo de biofilm y qu medidas tomar paraevitar, en lo posible, la existencia de estaslocalizaciones de mayor riesgo. De esta manera, semitigarn de manera ms eficiente los problemasderivados del desarrollo de biofilm en estossistemas, por lo que se conseguir llevar a cabo unagestin de la calidad del agua y del servicio de losDWDSs ms eficiente y efectiva, minimizando as larepercusin sobre el consumidor y aumentando susatisfaccin.

    BIBLIOGRAFAAizerman M.A., Braverman E.M., Rozonoer L.I.,

    (1964) Theoretical foundations of thepotential function method in patternrecognition learning, Automation RemoteControl, 25, pp. 821-827.

    Brent Martin (1995). Instance-Based learning:Nearest Neighbor With Generalization.Hamilton, New Zealand.

    Chowdhury, S. (2011). Heterotrophic bacteria indrinking water distribution system: a review,Environmental Monitoring and Assesment,pp. 24072415.

    Christensen, R.T. (2009). Age Effects on Iron-BasedPipes in Water Distribution Systems, UtahState University.

    Cloete, T.E. and Westard, D. and van Vuuren, S.J.(2003). Dynamic response of biofilm to pipesurface and fluid velocity, Water Scienceand Technology 45, pp. 5759.

    Cohen W. W. (1995) Fast Effective Rule Induction.In: 12th International Conference onMachine Learning, pp. 115-123.

    Gonen, M., Alpaydin, E. (2011). Multiple kernellearning algorithms, Journal of MachineLearning Research 12, pp. 2211-2268.

    Quinlan, J. R. (1993) C4.5: Programs for MachineLearning. Morgan Kaufmann Publishers.

    Landis J. and Koch, G. (1977). The measurement ofobserved agreement for categorical data,Biometrics 33 pp.159174.

    Lehtola, M.J. and Laxandera, M. and Miettinena,I.T. and Hirvonec, A. and Vartiainenb, T.and Martikainenc, P.J. (2006). The effects ofchanging water flow velocity on theformation of biofilms and water quality inpilot distribution system, Water Research40, pp. 21512160.

    Niquette, P. M. and Servais, P. and Savoir, R.(2000). The role of hydrodynamic stress onthe phenotypic characteristics of single andbinary biofilms of Pseudomonas fluorescens,Water Resources 64.

    Rajput, A., Aharwal, R.P., Dubey, M., Saxena, S.P.and Raghuvansi M. (2011) J48 and JRIPrules for E-governance data. In:International Journal of Computer Scienceand Security, Volume (5) : Issue (2).

    Ramos-Martnez, E., Herrera, M, Izquierdo, J.,Prez-Garca, R. (2013). Pre-processingmeta-data on biofilm development indrinking water distribution systems,Hydroinformatics, under review.

    Schlkopf, B., Smola, A. J. (2002). Learning withkernels. MIT Press.

    Shawe-Taylor, J., Cristianini, N. (2006). KernelMethods for Pattern Analysis. CambridgeUniversity Press.

    Simoes, M. and Pereira, M.O. and Vieira, M.J.(2007). The role of hydrodynamic stress onthe phenotypic characteristics of single and

  • binary biofilms of Pseudomonas fluorescens,Water Science and Technology 55, pp. 437445

    Sylvain Roy (2002). Nearest Neighbor WithGeneralization. Christchurch, New Zealand.

    United States Environmental Protection Agency(2002) Effects of water age on distributionsystem water quality. Paper Issue.

    Webb, Geoffrey I., Janice R. Boughton, and ZhihaiWang. (2005): Not so naive bayes:Aggregating one-dependence estimators.Machine Learning 58.1 pp. 5-24.

    Witten, I. H, Frank, E. & Hall, M. A. (2011) DataMining: Practical Machine Learning Toolsand Techniques. Morgan Kaufmann, ISBN978-0-12-374856-0.