Bioinformática con Ñ

download Bioinformática con Ñ

of 558

Transcript of Bioinformática con Ñ

  • 7/22/2019 Bioinformtica con

    1/557

  • 7/22/2019 Bioinformtica con

    2/557

    Bioinformatica con N

    Volumen I: Principios de Bioinformatica

  • 7/22/2019 Bioinformtica con

    3/557

    Edicion y coordinacion:Alvaro Sebastian y Alberto Pascual-Garca

    Autores:F. Abascal, J. Aguirre, E. Andres-Leon, D. Bajic, D. Bau, J. A. Bueren-Calabuig,A. Cortes-Cabrera, I. Dotu, J. M. Fernandez, H. G. D. Santos, B. Garca-Jimenez,

    R. Guantes, I. Irisarri, N. Jimenez-Lozano, J. Klett, R. Mendez, A. Morreale,A. Pascual-Garca, A. Perona, A. Sebastian, M. Stich, S. Tarazona, I. Yruela y R. Zardoya

    Portada:Enrique Sahagun (http://www.scixel.es)

    Maquetacion:Alvaro SebastianUsando LATEX(http://www.latex-project.org) y Texmaker(http://www.xm1math.net/texmaker)

    Editorial:Libro autoeditado e impreso por CreateSpace (http://www.createspace.com)

    Deposito legal: SE-NNNNNNN

    ISBN: NNNNNNN

    Copyright de la portada:

    2014 Enrique Sahagun

    Copyright de los textos: 2014 Los respectivos autores

    Copyright de las figuras: 2014 Los respectivos autores, si no se indica lo contrario

    Licencia de las figuras:La establecida por sus autores en los textos originales

    Licencia de los textos:Creative Commons BY-NC-SA 4.0 (http://creativecommons.org/licenses/by-nc-sa/4.0/ )

    La licencia Creative Commons BY-NC-SA 4.0 permite:

    Compartir: copiar y redistribuir el material en cualquier medio o formato

    Adaptar: mezclar, transformar y crear a partir del material

    Bajo los siguientes terminos:

    Atribucion:se debe dar el credito de la obra a los autores originales, proveer un enlace a la licenciae indicar los cambios realizados.

    NoComercial: no se puede hacer uso del material con fines comerciales.

    CompartirIgual: Si se mezcla, transforma o crea nuevo material a partir de esta obra, s olo sepodra distribuir utilizando la misma licencia que la obra original.

    http://www.scixel.es/http://www.latex-project.org/http://www.xm1math.net/texmakerhttp://www.createspace.com/http://creativecommons.org/licenses/by-nc-sa/4.0/http://creativecommons.org/licenses/by-nc-sa/4.0/http://www.createspace.com/http://www.xm1math.net/texmakerhttp://www.latex-project.org/http://www.scixel.es/
  • 7/22/2019 Bioinformtica con

    4/557

  • 7/22/2019 Bioinformtica con

    5/557

    Prologo Volumen I. Principios debioinformatica.

    5

  • 7/22/2019 Bioinformtica con

    6/557

  • 7/22/2019 Bioinformtica con

    7/557

    Prologo

    La bioinformatica y la biologa computacional persiguen ordenar el conocimiento que se deriva delanalisis de datos biologicos, fundamentalmente secuencias y genomas, con ayuda de algoritmos y sis-temas informaticos. Por su naturaleza transversal han colonizado a otras disciplinas y ya son parteintegral de los metodos de traba jo de areas tan amplias como la biotecnologa, la ecologa, la biologa ola medicina. Proyectos cientficos de gran impacto en nuestras vidas, como la secuenciacion del genomahumano, la caracterizacion de las diferentes variedades de cancer, el diseno de nuevos medicamentoso la seleccion genomica en el sector agropecuario han sido y seguiran siendo posibles gracias, en granmedida, a los avances de la bioinformatica. Todo esto ha ocurrido en los ultimos 30 anos, y a un ritmomuy difcil de seguir incluso para los especialistas. De hecho, es facil abrumarse con el volumen deliteratura al alcance de la mano, ya sea en canales convencionales como las revistas Bioinformatics oPLoS Computational Biology, editadas por cientficos de prestigio, o foros como Biostar o SEQanswers,

    donde usuarios de todo el mundo comparten protocolos y experiencia al estilo peer to peer.Como deca, la bioinformatica ha evolucionado rapidamente en anos recientes y eso se ha traducido enuna demanda creciente de profesionales cualificados en el diseno y aplicacion de esta clase de herra-mientas computacionales. Estos especialistas pueden tener currculum vitae muy distintos, habiendorecorrido itinerarios academicos posiblemente diferentes, pero finalmente han de tener una serie de ha-bilidades fundamentales como son conocimientos en genetica y biologa molecular, dominio de lenguajesde programacion y la capacidad de administrar y sacar el maximo rendimiento a los datos y el hardwaredisponible, ya sea en un laboratorio de investigacion o una pequena empresa biotecnologica. Aunquela bioinformatica tiene una dimension global y se habla en ingles, tambien es cierto que en muchasuniversidades a este y al otro lado del Atlantico la lengua vehicular para la ensenanza es el espanol.En consecuencia hay un espacio y una demanda real de materiales educativos en espanol, y muestra

    de ellos son los cada vez mas numerosos blogs y bitacoras que tratan sobre esta materia en nuestralengua. Este libro es el esfuerzo colectivo de un buen elenco de investigadores expertos, en su mayorapor debajo de los 40 anos, por contribuir a llenar ese espacio con contenidos cientficos. En efecto,tras el texto pionero publicado por el profesor Lahoz-Beltra en 2004, este libro es el primero escrito ennuestra lengua que hace un repaso tan amplio y ambicioso del area, y complementa de manera naturallos recursos disponibles en la Red.

    En esta edicion inicial los autores tocan de forma exhaustiva una seleccion de temas fundamentales dela biologa computacional, y por tanto es de esperar que este libro se convierta en un recurso valio-so para estudiantes y profesores de las universidades de habla hispana. Para los estudiantes, porqueaqu podran encontrar material para ahondar en su estudio de la bioinformatica, incluyendo citas aartculos de la literatura cientfica, normalmente en ingles; para los profesores universitarios, porque

    podran apoyarse en este libro para programar y dotar de contenido a las asignaturas y materias re-lacionadas con la bioinformatica, que todava en muchas universidades son claramente insuficientes.Finalmente, seguramente este libro contribuya a introducir y traducir al espanol el caudal constantede terminos y conceptos de la bioinformatica. El reto que tiene por delante sera sin duda el de larenovacion permanente para no sucumbir a la evolucion del area, de modo que los temas incluidos seanrepresentativos de las areas vigentes de la disciplina. La filosofa colaborativa de este proyecto, dondetanto el editor como los autores han participado en la seleccion de materiales y en la toma de decicioneseditoriales, parece adecuada para este fin.

    Bruno Contreras Moreira

  • 7/22/2019 Bioinformtica con

    8/557

    Zaragoza, Septiembre de 2014

    El Dr. Bruno Contreras es director del Laboratorio de Biologa Computacional en la Estacion Experimental de Aula Dei

    (EEAD/CSIC, Zaragoza, Espana) y profesor invitado de la Universidad Autonoma de Mexico (Cuernavaca, Mexico).

  • 7/22/2019 Bioinformtica con

    9/557

    Prologo Volumen II. Biologaestructural y de sistemas.

    9

  • 7/22/2019 Bioinformtica con

    10/557

  • 7/22/2019 Bioinformtica con

    11/557

    Prologo

    Mi primera impresion cuando examine la recopilacion de captulos que se agrupan en este volumendoble fue la de que, por fin!, alguien haba cogido al toro por los cuernos y acometido la ingentetarea de explicar y dar forma a una serie de conceptos y disciplinas de actualidad relacionados con losnuevos enfoques sobre los seres vivos. Cabra pensar que este conocimiento, que dirige una buena partede los esfuerzos cientficos encaminados a comprender la vida y aliviar las enfermedades, se estuvieraimpartiendo en todos o la mayora de los grados universitarios actuales en ciencias de la salud. Lasobria realidad es que, lamentablemente, sigue siendo mayoritariamente ignorado aunque esta carenciase pueda paliar posteriormente en masteres o cursos de especializacion.

    La sorpresa que vino a continuacion fue que esta valenta corresponda a dos jovenes investigadores

    que han conseguido coordinar las aportaciones de otros colegas igual de jovenes (o incluso mas!), conflamantes doctorados en materias relacionadas con los temas tratados, y que demuestran haber recogidoel testigo recibido de profesores y maestros para facilitar la tarea a cualquier persona hispanohablanteinteresada en introducirse en el fascinante mundo de la informacion biologica moderna, su tratamientoy algunas de sus aplicaciones. Entre estas ultimas se encuentran metodologas de diseno de farmacosbasadas en el conocimiento estructural con detalle atomico de la macromolecula diana, la simulacionde los movimientos de estos componentes de la maquinaria que hace posible la vida y el apasionantemundo de los complejos procesos interrelacionados que constituyen la biologa de sistemas.

    Estos dos volumenes son como los abrigos crecederos que se compran a los ninos para que les durenmas de una temporada. Por un parte, cada captulo recoge una informacion mas que abundante parauna introduccion a la materia y, por otro lado, hay espacio suficiente entre captulos para rellenar los

    huecos que una obra de este tipo necesariamente deja sin cubrir, a la espera de ediciones posteriores.

    Desde estas breves lneas envo mi felicitacion a coordinadores y autores, agradeciendoles su dedicaciony buen hacer, que tendra como merecida recompensa el reconocimiento de sus lectores, que no dudoseran numerosos a ambos lados del Atlantico.

    Federico Gago Badenas

    Madrid, Septiembre de 2014

    El Dr. Federico Gago es director del grupo de investigacion Mecanismo de accion de moleculas con actividad biologica

    en la Universidad de Alcala (Madrid, Espana), ademas de catedratico y profesor en la misma universidad.

  • 7/22/2019 Bioinformtica con

    12/557

  • 7/22/2019 Bioinformtica con

    13/557

    Autores

    13

  • 7/22/2019 Bioinformtica con

    14/557

  • 7/22/2019 Bioinformtica con

    15/557

    Alvaro Sebastian Yague(editor)

    Alvaro Sebastian es licenciado en Qumica y Bioqumica,ambos por la Universidad de Zaragoza (2005). Curso los es-tudios de master en Bioinformatica en la Universidad Com-

    plutense de Madrid y realizo practicas en la empresa Crys-tax Pharmaceuticals (Barcelona). Posteriormente volvio alwet lab para realizar la tesis doctoral sobre la protena hu-mana ITIH4 en la Universidad de Zaragoza donde tambiencurso estudios de doctorado en Ingeniera Biomedica.

    Al final del doctorado comenzo una aventura empresarialfundando Idibay Consulting S.L., empresa de diseno web yconsultora informatica. En el ano 2009 fue contratado comoinvestigador del CSIC en el proyecto europeo STREG parael estudio de la regulacion transcripcional en plantas en ellaboratorio del Dr. Bruno Contreras en la Estacion Experimental de Aula Dei. En 2013 comenzo su

    periplo internacional realizando una estancia en el laboratorio del Prof. Janusz Bujnicki para el diseno depotenciales dedockingprotena-protena y mas tarde se incorporo al laboratorio de Biologa Evolutivaen la Universidad Adam Mickiewicz (Poznan, Polonia), donde trabaja actualmente con el Prof. JacekRadwan en el genotipado de la familia de genes del complejo mayor de histocompatibilidad y delreceptor de linfocitos T usando tecnologas de secuenciacion de nueva generacion.

    Su corta carrera cientfica se caracteriza por un vaiven en diferentes areas y tecnicas, desde la sntesisqumica asimetrica, pasando por el laboratorio bioqumico hasta finalizar en el campo de la bioin-formatica. La ultima aventura cientfica, y quizas la mas arriesgada y compleja, ha sido coordinar yeditar el presente libro.

    Alberto Pascual Garca (editor)

    Alberto Pascual Garca es licenciado en Fsica por la Universi-dad Complutense de Madrid y master en Biofsica por la Uni-versidad Autonoma de Madrid. Ha trabajado en el Laboratoriode Circuitos Neuronales del Hospital Ramon y Cajal, y en laUnidad de Bioinformatica del Centro de Biologa Molecular Se-vero Ochoa (CSIC-UAM), donde finaliza su tesis doctoral sobrepatrones emergentes en sistemas biologicos complejos, dirigidapor el Dr. Ugo Bastolla.

    Ha participado en diversos proyectos de investigacion en te-mas tan diversos como evolucion de estructura de protenas,redes de interaccion mutualistas o ecologa bacteriana, desdeuna perspectiva multidisciplinar. Ha realizado estancias de in-vestigacion en el laboratorio del Prof. Andres Moya (Centrode Investigacion en Salud Publica de Valencia, Espana) y delProf. Julian Echave (Universidad Nacional de San Martn, Argentina). En los ultimos anos ha sidocoordinador y profesor de la asignatura de Bioinformatica del Master en Biofsica de la UniversidadAutonoma de Madrid.

  • 7/22/2019 Bioinformtica con

    16/557

    Federico Abascal Sebastian de Erice

    Federico Abascal se licencio y doctoro en Biologa Molecular en la Uni-versidad Autonoma de Madrid. Ha desarrollado su labor de investiga-cion en campos diversos de la Biologa, como el analisis de secuencias

    de protenas y la genomica, siempre utilizando los ordenadores comoherramienta y desde un enfoque evolutivo.

    Actualmente trabaja como investigador contratado en el Centro Na-cional de Investigaciones Oncologicas, en el grupo del Prof. Alfon-so Valencia, con quien hizo la tesis doctoral en el Centro Nacio-nal de Biotecnologa. Tambien ha trabajado con los Prof. David Po-sada (Universidad de Vigo) y Rafael Zardoya (Museo Nacional deCiencias Naturales), principales culpables de su aficion a lo evoluti-vo.

    Jacobo Aguirre Araujo

    Jacobo Aguirre Araujo (Madrid, 1975) se licencio en Fsica, especiali-dad Astrofsica, por la Universidad Complutense de Madrid en 1999.Fue profesor de la Universidad Rey Juan Carlos hasta 2006, investiga-dor del Centro de Astrobiologa (CSIC-INTA) hasta junio de 2014, yactualmente trabaja en el Centro Nacional de Biotecnologa (CSIC).

    Su investigacion versa sobre el analisis y la modelizacion de procesosevolutivos en fsica y biologa en el contexto de la dinamica no linealy las redes complejas. Actualmente, esta centrado en el estudio de

    la evolucion de virus y RNA. Ha realizado estancias de investigacionen Dinamarca, Alemania y EEUU. En 2003 fundo el Grupo de Astro-noma de la URJC y en 2005 recibio el Premio Nacional al InvestigadorNovel en su modalidad de Fsica Teorica.

    Eduardo Andres Leon

    Eduardo Andres Leon trabaja en el Instituto de Biomedicina deSevilla (IBIS) dentro del grupo de Biologa Computacional y Bioin-formatica (CbBio), donde es el responsable tecnico de la unidad de

    calculo cientfico de alto rendimiento. Estudio Biologa Molecularen la Universidad Autonoma de Madrid y ha trabajado en el Cen-tro Nacional de Biotecnologa (CNB-CSIC), Instituto Nacional deBioinformatica y Centro Nacional de Investigaciones Oncologicas(CNIO).

    Actualmente colabora con la Fundacion Espanola de Hipercoleste-rolemia Familiar y con la Escuela Nacional de Sanidad del Instituto de salud Carlos III, donde desarrollalabores docentes. Esta interesado en el analisis y estudio integrativo de datos genomicos a gran escalay en la regulacion genica basada en elementos no codificantes como los small RNAs.

  • 7/22/2019 Bioinformtica con

    17/557

    Djordje Bajic

    Djordje es licenciado en Bioqumica y master en Biofsicapor la Universidad Autonoma de Madrid. Actualmente esestudiante de doctorado en el laboratorio de Logica de Sis-

    temas Genomicos en el Centro Nacional de Biotecnologa(Madrid).

    Su investigacion versa en el uso de modelos computaciona-les y genomica comparativa para comprender la evolucionde la expresion genica.

    Davide BauDespues de haber obtenido un master en Qumica en la Universidadde Padua y completar un curso de Bioinformatica en la Universidad de

    Colonia, Davide se traslado a la Universidad de Dubln (UCD), donde,en 2008, obtuvo su doctorado en la Facultad de Ciencias de la Compu-tacion e Informatica, bajo la supervision del Dr. Gianluca Pollastri.Su tesis se centro en el desarrollo de un algoritmo de prediccion de es-tructuras de protenas bajo la gua de un potencial estadstico basadoen tecnicas de aprendiza je automatico o machine learning.

    Davide realizo su postdoctorado en el laboratorio del Dr. Marc Marti-Renom, donde comenzo a trabajar en la determinacion de estructurasde dominios genomicos y genomas. Durante este tiempo, desarrollo losmetodos que llevaron a la determinacion del primer modelo de altaresolucion de una region genomica humana, el dominio-globina y del

    primer modelo tridimensional del genoma completo de una bacteria (Caulobacter crescentus). Actual-mente esta involucrado en diferentes colaboraciones que tienen como objetivo determinar la arquitec-tura del genoma de varios organismos incluyendo humano, levadura, Mycoplasma pneumoniae, moscay raton.

    Juan Bueren Calabuig

    Juan Bueren es licenciado en Farmacia por la UniversidadComplutense de Madrid y doctor en Farmacologa por laUniversidad de Alcala (Madrid).

    Juan ha realizando estudios de mecanica cuantica y dinami-ca molecular sobre el mecanismo cataltico de diversas en-zimas implicadas en la evasion del sistema inmune por elparasito Trypanosoma cruzicausante de la enfermedad deChagas en la Universidad de Florida. Tambien ha trabajadoen la Universidad de Edimburgo con el Dr. Julien Michelestudiando el mecanimo de accion de protenas intrnsi-camente desordenadas y a partir de septiembre de 2014sera investigador en la Universidad de Dundee para realizar estudios de protenas de membrana.

  • 7/22/2019 Bioinformtica con

    18/557

    Ivan Dotu

    Ivan Dotu se doctoro en Ingeniera Informatica en la Universi-dad Autonoma de Madrid, especializandose en Programacioncon Restricciones y Busqueda Local. En 2007 consiguio un beca

    de la Fundacion Caja Madrid para realizar un postdoctoradoen Brown University, donde trabajo en prediccion de estructu-ra de protenas. Tras un ano trabajando en la empresa privada,Ivan Dotu volvio a la academia con un puesto de Profesor In-vestigador en el Departamento de Biologa de Boston College,donde trabajo, dentro del laboratorio de Biologa Estructuralliderado por el Prof. Peter Clote, en temas relacionados con laestructura de RNA y la busqueda y diseno de RNA funcional.

    Ivan Dotu ha publicado decenas de artculos en diversas areas, ha sido co-PI de un proyecto de NSFy ha co-organizado 2 escuelas de verano en Boston College sobre Metodos Computacionales de RNA.Tambien ha sido o es miembro del comite de programa de conferencias como CP, ECAI y AAAI yrevisor de artculos para revistas como BMC Evolutionary Biology, PLOS ONE, PLOS ComputationalBiology o Nucleic Acids Research. Actualmente, Ivan Dotu es un investigador visitante en la Univer-sidad Politecnica de Cataluna y es colaborador renumerado de un proyecto NIH sobre la interaccionentre RNA y protenas.

    Jose Mara Fernandez Gonzalez

    Jose Mara Fernandez es un bioinformatico perteneciente al Nodo 2del Instituto Nacional de Bioinformatica, en el Programa de Biologa

    Estructural y Biocomputacion del Centro Nacional de InvestigacionesOncologicas. Tiene el ttulo de Ingeniero en Informatica por la Uni-versidad de Malaga, y al acabar los estudios se intereso por la bioin-formatica, entrando en 1999 a formar parte del Protein Design Groupen el Centro Nacional de Bioinformatica. All participo en varios pro-yectos, entre ellos REGIA (REgulatory Gene Initiative in Arabidop-sis), PlaNet Consortium y el proyecto de secuenciacion de Buchneraaphidicola, creo para el proyecto ORIEL los iHOP web services y cola-boro en el germen del actual INB. En 2002 obtuvo el Ttulo de Estudios

    Avanzados en el departamento de Informatica de la Universidad Autonoma de Madrid. En 2006 se tras-lado junto con el grupo de Alfonso Valencia al CNIO, ya como bioinformatico del INB, participando

    en proyectos como EMBRACE, ENFIN, ICGC, BLUEPRINT y RD-Connect.

    Sus principales lneas de desarrollo a lo largo de estos anos han sido el procesamiento, consulta y analisisde secuencias y de grandes volumenes de informacion; el diseno y uso de bases de datos de distinto tipo(SQL, XML, NoSQL) con el volumen de datos a nivel bioinformatico, y de modelos de datos que seamoldaran a las necesidades de la bioinformatica; desarrollo de servicios web en distintos paradigmas(REST, SOAP+WSDL, etc...), as como la colaboracion en el diseno e implementacion del estandarBioMOBY.

  • 7/22/2019 Bioinformtica con

    19/557

    Alvaro Cortes Cabrera

    Alvaro Cortes es licenciado en Farmacia y master en Biofsi-ca. Actualmente compagina sus estudios de doctorado en laUnidad de Bioinformatica del Centro de Biologa MolecularSevero Ochoa y su trabajo como profesor en la Universidad deAlcala.

    Su investigacion versa en estudios de docking protena-ligandoy protena-protena.

    Beatriz Garca Jimenez

    Beatriz Garca Jimenez es investigadora postdoctoral Isaac Peral en elGrupo de Bioinformatica del Centro de Biotecnologa y Genomica dePlantas UPM-INIA desde Septiembre del 2013.

    Obtuvo su tesis doctoral, titulada Anotacion Funcional de Protenasbasada en Representacion Relacional en el entorno de la Biologa deSistemas, por la Universidad Carlos III de Madrid (UC3M) en 2012,dirigida por el Dr. Alfonso Valencia (Bio-CNIO) y la Dra. AraceliSanchis (Inf-UC3M). Fue profesora ayudante del departamento de In-formatica de la UC3M desde Marzo del 2006 hasta Agosto de 2013.Realizo una estancia postdoctoral en el departamento de Biologa

    Computacional y Algoritmos aplicados en el Instituto Max-Planck deInformatica (MPII) de Febrero a Junio de 2013.

    Su tesis gano el Premio Nacional a la mejor tesis, en el area de ciencias experimentales y tecnologicas,concedido por la Real Academia de Doctores de Espana. Ademas, ha recibido otros premios de la UC3M(Premio Extraordinario de Doctorado, 2011-2012), y de la Comunidad de Madrid (AprovechamientoAcademico Excelente, 2004-2005), entre otros.

    Esta especializada en aprendizaje automatico aplicado a la bioinformatica, principalmente en prediccionde anotacion funcional. Sus intereses cientficos incluyen representacion relacional del conocimiento,minera de datos, anotacion funcional,workflowsy redes de protenas.

    Actualmente estudia como extraer informacion de losworkflowsbioinformaticos, anotandolos semanti-

    camente e identificando fragmentos reusables de conocimiento cientfico bioinformatico, y participa enun proyecto de localizacion de marcadores de Alzheimer.

  • 7/22/2019 Bioinformtica con

    20/557

    Helena Gomes Dos Santos

    Helena Gomes Dos Santos se licencio en Biologa por la UniversidadAutonoma de Madrid, donde ademas curso un master en Biofsicay recientemente se doctoro en Biociencias Moleculares bajo la su-

    pervision del Dr. Ugo Bastolla y el Dr. Antonio Morreale (Centrode Biologa Molecular Severo Ochoa, CSIC-UAM, Madrid).

    Sus inicios en la bioinformatica se remontan al ultimo ano de ca-rrera, el laboratorio del Dr. Angelo Messina (Universidad de Cata-nia). Desde muy temprano mostro un especial interes en el mun-do computacional, colaborando en el desarrollo e implementacionde nuevas herramientas bioinformaticas as como su aplicacion encasos reales mediante numerosas colaboraciones con grupos expe-rimentales.

    Su labor investigadora se ha centrado principalmente en el estudio de la variabilidad estructural, la

    dinamica y las posibles interacciones entre protenas y otras moleculas. Como complemento a dichaformacion, en la actualidad se encuentra realizando su investigacion postdoctoral en el laboratorio de laDra. Siltberg-Liberles (Universidad Internacional de Florida), donde evolucion y dinamica de protenasse combinan para ofrecernos una imagen mas completa del funcionamiento y posible modulacion delas funciones proteicas con una directa aplicacion en la mejora del diseno de farmacos asistido porordenador y la terapia personalizada.

    Raul Guantes Navacerrada

    Raul Guantes es profesor contratado doctor de la UniversidadAutonoma de Madrid, donde coordina desde el ano 2008 unprograma oficial de posgrado en Biofsica y dirige el laboratoriode Biodinamica y Biologa Computacional.

    Es doctor en Ciencias Qumicas por la misma universidad yha investigado en diversos campos de la Fsica y la Biologadesde una perspectiva teorica: fsica no lineal y de sistemascomplejos, fsica estadstica, fsica de superficies, neurocienciay biologa de sistemas.

    Desde el ano 2006 centra su investigacion en el estudio de las

    redes biologicas y sus principios de diseno, as como en losorgenes y consecuencias de la variabilidad celular no genetica.

  • 7/22/2019 Bioinformtica con

    21/557

    Iker Irisarri Anguita

    Iker Irisarri se licencio en Biologa por la Universidad de Navarra y obtuvosu doctorado por la Universidad Autonoma de Madrid en 2012, desem-

    penando su labor investigadora en el Museo Nacional de Ciencias Na-turales (CSIC) bajo la direccion del Prof. Rafael Zardoya. Durante es-te periodo, se especializo en filogenia y evolucion molecular de anima-les, y realizo estancias de investigacion en Alemania, Australia y Califor-nia.

    En la actualidad, trabaja como investigador postdoctoral en la Universi-dad de Constanza (Alemania) en filogenomica y genomica comparada devertebrados.

    Natalia Jimenez Lozano

    Natalia Jimenez es licenciada en Bioqumica por la Universidad deGranada. Realizo su doctorado en el Departamento de Biocomputaciondel Centro Nacional de Biotecnologa.

    Cuando termino el doctorado emprendio el reto de montar desde ce-ro una Unidad de Bioinformatica perteneciente al Instituto Nacionalde Bioinformatica, al que ha pertenecido hasta el ano 2012, en el queentro a formar parte de la empresa Bull con la responsabilidad de

    desarrollar el negocio de la sanidad y ciencias de la vida a nivel inter-nacional.

    Javier Klett Arroyo

    Javier Klett es licenciado en Matematicas, master enBiofsica por la Universidad Autonoma de Madrid yrealizo su doctorado en la Unidad de Bioinformatica del

    Centro de Biologa Molecular Severo Ochoa (Madrid).Su especialidad son los estudios energeticos y potencialesde union protena-protena. Actualmente compagina la in-vestigacion postdoctoral en el grupo de Qumica y BiologaComputacional en el Centro de Investigaciones Biologicasde Madrid y su trabajo como profesor en el Departamentode Bioingeniera e Ingeniera Aeroespacial de la Universi-dad Carlos III (Madrid).

  • 7/22/2019 Bioinformtica con

    22/557

    Raul Mendez Giraldez

    Raul Mendez Giraldez, es licenciado en Qumica por la Universi-dad de Barcelona y doctor en Ciencias por la Universidad Librede Bruselas. Su carrera profesional se ha desarrollado en el campo

    de la bioinformatica estructural, inicialmente durante su doctoradoevaluando los metodos para predecir la estructura de los complejosde protena, y mas tarde se ha ido centrando en el desarrollo demetodos computacionales de red elastica para estudiar la flexibili-dad de la protenas.

    En la actualidad trabaja como investigador postdoctoral en el de-partamento de Bioqumica y Biofsica de la Universidad de Ca-rolina del Norte (EEUU) utilizando metodos de dinamica mole-cular y diseno racional de protenas con aplicaciones terapeuti-cas.

    Antonio Morreale

    Antonio Morreale estudio Ciencias Qumicas en la Universidadde Alcala de Henares, Madrid, donde se doctoro en el ano 2001bajo la supervision de la Dra. Isabel Iriepa tras una estancia dedieciocho meses en el Chemistry Department de la IUPUI (In-diana, USA) como estudiante de doctorado donde trabajo conlos Profs. Kenny B. Lipkowitz (codirector de su tesis) y Donald

    B. Boyd. Despues realizo una estancia postdoctoral en el labo-ratorio de los Profs. Modesto Orozco y Javier Luque durantecasi dos anos y medio.

    A su vuelta a Madrid (2004) se incorporo a la Unidad de Bio-informatica (UB) creada por el Dr. Angel R. Ortiz en el centrode Biologa Molecular Severo Ochoa (CBMSO), primero comopostdoctoral asociado (2004-2008) y luego como director de la

    lnea de diseno de farmacos y codirector del Servicio de Bioinformatica del CBMSO. A finales de 2012se incorpora como tecnologo senior al area de bioenerga de la compana Repsol S.A.

    Antonio Morreale es autor de unos 60 artculos de investigacion en publicaciones especializadas inclu-

    yendo revisiones bibliograficas y captulos de libro. Ademas, es coinventor de varias patentes, dos delas cuales han sido licenciadas. Ha dirigido cuatro tesis doctorales y ha participado como organizadory profesor en numerosos cursos y masteres.

    Su trayectoria cientfica ha sido una evolucion continua desde los principios que rigen las interaccionesentre moleculas (tanto cuanticos como clasicos) hasta la aplicacion de estos en el diseno racional defarmacos. En la actualidad trabaja en el modelado y simulacion de reacciones catalticas claves enciertas rutas metabolicas con la finalidad de obtener nuevos biocombustibles.

  • 7/22/2019 Bioinformtica con

    23/557

    Almudena Perona

    Almudena Perona es directora de proyectos en la empresa SmartLigs,compana biotecnologica dedicada al descubrimiento y desarrollo denuevos farmacos mediante tecnologas de qumica computacional. Doc-

    tora en Qumica Organica por la Universidad Nacional de Educaciona Distancia (UNED), especialista en sntesis organica de heterociclosy caracterizacion de moleculas organicas sencillas por NMR.

    Como investigadora postdoctoral en la Unidad de Bioinformati-ca del Centro de Biologa Molecular Severo Ochoa (CSIC-UAM)ha colaborado en proyectos de diseno de farmacos mediante estu-dio in silico de la interaccion entre protenas y moleculas senci-llas, usando herramientas bioinformaticas, principalmente programasde docking protena-ligando, protena-protena y dinamica molecu-lar.

    Michael Stich

    Despues de estudiar Fsica en la Freie Universitat Berlin y la Universidadde Granada, Michael realizo el doctorado en el Fritz-Haber-Institut de laMax Planck Society en Berln que termino en el ano 2003.

    Obtuvo una beca Marie Curie postdoctoral para estar en la UniversidadComplutense de Madrid, y trabajo de postdoc y posteriormente comoinvestigador contratado en el Centro de Astrobiologa (CSIC/INTA), ala vez de ser profesor asociado en la Universidad Politecnica de Madrid.

    Despues de ser investigador asociado en la Harvard University, se incor-poro como docente en la Aston University (Birmingham, UK) en 2013. Sutrabajo reciente esta enfocado en la modelizacion de sistemas biologicoscomplejos y de procesos evolutivos, p.ej. RNA.

    Rafael Zardoya San Sebastian

    Rafael Zardoya se doctoro en Biologa en la Universidad Compluten-se de Madrid en 1994. Tras una estancia postdoctoral de 2 anos en

    la Universidad del Estado de Nueva York en Stony Brook (EEUU),regreso en 1997 al Museo Nacional de Ciencias Naturales de Madriddonde es profesor de investigacion del CSIC desde 2008.

    Su lnea de investigacion se centra en el estudio de los mecanismosevolutivos que generan la diversidad biologica. En particular utilizasecuencias de DNA (genomas mitocondriales, transcriptomas) para lareconstruccion de las relaciones filogeneticas de los grandes grupos devertebrados y moluscos y realiza analisis genomico/transcriptomicoscomparados en un marco evolutivo.

  • 7/22/2019 Bioinformtica con

    24/557

    Sonia Tarazona Campos

    Sonia Tarazona se licencio en Matematicas (1997) y Ciencias yTecnicas Estadsticas (2001) por la Universitat de Valencia. Des-de 2005 es profesora asociada en el Departamento de Estadstica

    e Investigacion Operativa Aplicadas y Calidad de la UniversitatPolitecnica de Valencia.

    Desde 2008 forma parte del grupo de Genomica de la ExpresionGenica liderado por la Dra. Ana Conesa en el Centro de In-vestigacion Prncipe Felipe (Valencia). Durante este tiempo, hacolaborado en diversos proyectos de investigacion y actualmenteforma parte del proyecto europeo STATegra cuyo objetivo es eldesarrollo de metodos estadsticos para la integracion de distin-tos datos omicos.

    En paralelo, ha realizado su tesis doctoral que lleva co-mo ttulo Statistical methods for transcriptomics: frommicroarrays to RNA-seq y que sera defendida en bre-ve.

    Inmaculada Yruela Guerrero

    Inmaculada Yruela es doctora en Qumica por la Universidad de Se-villa. Despues de realizar una estancia postdoctoral en el Max-PlanckInstitute for Bioinorganic Chemistry en Mulheim and der Ruhr (Ale-

    mania) ocupo su actual posicion de investigador cientfico en la Esta-cion Experimental de Aula Dei del Consejo Superior de InvestigacionesCientficas (EEAD-CSIC), Zaragoza.

    Su investigacion se ha centrado en el estudio de la estructura y lafuncion de los fotosistemas y metaloprotenas que intervienen en eltransporte electronico fotosintetico, en la homeostasis del Cu en elcloroplasto y en aspectos evolutivos de las enzimas FAD sintetasascloroplasticas.

    Recientemente sus investigaciones se orientan a entender la dinami-ca evolutiva de las protenas intrnsecamente desordenadas (IDPs) en

    plantas y descubrir nuevas redes de regulacion transcripcional en estosorganismos. Sus actuales proyectos se desarrollan en el Grupo de Biologa Computacional y Estructuralde la EEAD-CSIC y colabora con el Instituto de Biocomputacion y Fsica de Sistemas Complejos dela Universidad de Zaragoza.

  • 7/22/2019 Bioinformtica con

    25/557

    Indice general

    I Fundamentos de bioinformatica, estadstica y gestion de informacion cientfi-ca 1

    1. Bases de datos biomedicas, servidores web y otros recursos online 31.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.1.1. Que es un dato biologico? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.1.2. Dato crudo y dato procesado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.3. Dato, informacion y conocimiento . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.4. Caractersticas de los datos biologicos . . . . . . . . . . . . . . . . . . . . . . . . 41.1.5. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.1.6. Ciclo de vida de los datos biologicos . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.2. Historia de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.1. Por que son esenciales las bases de datos? . . . . . . . . . . . . . . . . . . . . . 71.2.2. Diversidad de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    1.3. Estructura de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4. Interrelacion entre bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.5. Calidad y revision de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    1.5.1. Anotacion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.5.2. Vocabularios controlados y ontologas . . . . . . . . . . . . . . . . . . . . . . . . 121.5.3. Revisores quienes son y que hacen? . . . . . . . . . . . . . . . . . . . . . . . . . 13

    1.6. Numeros de acceso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.7. Gestion de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.8. Tipos de bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    1.8.1. Procedencia de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.8.2. Revision de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.8.3. Clasificacion EBI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.8.4. Clasificacion NCBI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.8.5. Clasificacion NAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.8.6. Redundancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    1.8.7. Acceso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.8.8. Busqueda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    1.9. Bases de datos mas relevantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.9.1. UniProt Knowledgebase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.9.2. GenBank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    1.10. Obtencion de secuencias y formatos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.11. Ejercicio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.12. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    2. Gestion de bibliografa e informacion y escritura de artculos cientficos 29

    i

  • 7/22/2019 Bioinformtica con

    26/557

    2.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.2. Bases de datos de literatura cientfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    2.2.1. Servidores de artculos por publicar . . . . . . . . . . . . . . . . . . . . . . . . . 312.2.2. PubMed y PubMed Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2.3. Google Scholar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    2.3.

    Indices y medidas de impacto cientfico. . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.4. Gestores de bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.4.1. Zotero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.4.2. Mendeley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.4.3. Biblioteca de Google Scholar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    2.5. Escritura de artculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.5.1. Formato y plantillas de artculos . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.5.2. Proceso de envo y revision de artculos . . . . . . . . . . . . . . . . . . . . . . . 45

    2.6. Primeros pasos con LaTeX. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482.6.1. Crear un artculo con LaTeX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482.6.2. Compilar codigo LaTeX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512.6.3. Editores LaTeX. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522.6.4. Instalacion de una distribucion LaTeX . . . . . . . . . . . . . . . . . . . . . . . . 53

    2.7. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    3. Estadstica y R 573.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    3.1.1. Poblacion y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.1.2. Variables aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.1.3. Introduccion a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    3.2. Estadstica descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603.2.1. Parametros de posicion y dispersion . . . . . . . . . . . . . . . . . . . . . . . . . 603.2.2. Graficos en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    3.2.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653.3. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    3.3.1. Definicion y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.3.2. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.3.3. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    3.4. Inferencia estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743.4.1. Estadstica parametrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743.4.2. Estadstica no parametrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783.4.3. Remuestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783.4.4. Correccion por tests multiples. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    3.4.5. Enfoque bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803.4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    3.5. Modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.5.1. Modelos ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.5.2. Regresion lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.5.3. Modelos lineales generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 903.5.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    3.6. Metodos multivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 923.6.1. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 933.6.2. Analisis de Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . . . 94

  • 7/22/2019 Bioinformtica con

    27/557

    3.7. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    4. Fundamentos de programacion 994.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    4.2. Tipos de lenguajes de programacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 994.2.1. Abstraccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    4.2.2. Ejecucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1004.2.3. Paradigma de programacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

    4.2.4. Que lenguaje de programacion usar? . . . . . . . . . . . . . . . . . . . . . . . . 1014.3. Consola de Linux, Mac OS X y Windows. Operaciones basicas . . . . . . . . . . . . . . 102

    4.3.1. Tipos de Shell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1034.4. Perl y BioPerl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    4.4.1. Introduccion a Perl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1044.4.2. Instalacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    4.4.3. Programando en Perl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.4.4. BioPerl y la programacion orientada a objetos . . . . . . . . . . . . . . . . . . . 112

    4.4.5. Programando con BioPerl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1134.4.6. Ejercicios con BioPerl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

    4.4.7. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1154.5. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

    5. Minera de datos 119

    5.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1195.1.1. Aplicaciones de la minera de datos. . . . . . . . . . . . . . . . . . . . . . . . . . 120

    5.1.2. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1215.1.3. Herramienta: Weka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

    5.2. Retos de la minera de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1255.3. Recopilacion y seleccion de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

    5.3.1. Repositorios de datos biologicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1275.3.2. Servicios web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

    5.3.3. Libreras de programacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1355.4. Preprocesamiento y transformacion de datos. . . . . . . . . . . . . . . . . . . . . . . . . 136

    5.4.1. Balanceo de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1375.4.2. Gestion de valores desconocidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

    5.4.3. Normalizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1395.4.4. Discretizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

    5.4.5. Seleccion de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1405.4.6. Extraccion de caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

    5.4.7. Conjuntos no redundantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

    5.5. Modelado. Aprendizaje automatico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1435.6. Evaluacion e interpretacion de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 145

    5.6.1. Estimacion del rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1455.6.2. Medidas de rendimiento unidimensionales . . . . . . . . . . . . . . . . . . . . . . 146

    5.6.3. Medidas de rendimiento bidimensionales . . . . . . . . . . . . . . . . . . . . . . . 1505.6.4. Interpretacion biologica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

    5.7. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

    6. Computacion paralela y clusteres de calculo 157

    6.1. Computacion paralela y ejemplos de programacion . . . . . . . . . . . . . . . . . . . . . 158

  • 7/22/2019 Bioinformtica con

    28/557

    6.1.1. Paralelizacion en Perl (threads) . . . . . . . . . . . . . . . . . . . . . . . . . . 1606.1.2. Paralelizacion en Python (multiprocessing y subprocess) . . . . . . . . . 163

    6.2. Clusteres de calculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1676.2.1. Nodos, memoria, procesadores, nucleos, procesos e hilos . . . . . . . . . . . . . . 1 686.2.2. Rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

    6.3. Conexion remota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1716.3.1. Protocolo SSH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

    6.3.2. Nodo de acceso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1726.4. Transferencia remota de archivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

    6.4.1. Protocolo SCP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1736.5. Sistema gestor de colas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

    6.6. Sun Grid Engine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1756.6.1. Ejecucion ordinaria de trabajos (qrsh) . . . . . . . . . . . . . . . . . . . . . . . . 175

    6.6.2. Procesamiento por lotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1766.6.3. Ejecucion de procesos por lotes (qsub) . . . . . . . . . . . . . . . . . . . . . . . . 176

    6.6.4. Control del estado de los trabajos (qstat) . . . . . . . . . . . . . . . . . . . . . . 178

    6.6.5. Eliminarcion de procesos (qdel), errores y salida estandar . . . . . . . . . . . . . 1806.6.6. Requerimientos de memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1806.6.7. Uso de multiples slots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

    II Macromoleculas biologicas, alineamiento de secuencias y filogenia 183

    7. Macromoleculas biologicas: protenas, DNA y RNA 1857.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

    7.2. Genes y protenas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1867.3. Estructura primaria de DNA y RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

    7.4. El codigo genetico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

    7.5. Aminoacidos y enlace peptdico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1907.5.1. Aminoacidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1907.5.2. Enlace peptdico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

    7.5.3. Angulos de torsion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1977.6. Niveles estructurales en protenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

    7.6.1. Estructura primaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1997.6.2. Estructura secundaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

    7.6.3. Estructura terciaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2027.6.4. Estructura cuaternaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

    7.7. Metodos empricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2037.7.1. Cristalizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

    7.7.2. Difraccion de rayos X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2047.7.3. Resonancia magnetica nuclear. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

    7.8. Herramientas bioinformaticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2067.8.1. Protein Data Bank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

    7.8.2. Visualizacion de estructuras en 3D . . . . . . . . . . . . . . . . . . . . . . . . . . 2067.9. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

    8. Analisis de secuencias biologicas 2118.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

    8.1.1. Homologa de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

  • 7/22/2019 Bioinformtica con

    29/557

    8.1.2. Diferencias alineamiento DNA y protenas . . . . . . . . . . . . . . . . . . . . . . 2138.2. Obtencion de secuencias y formatos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

    8.2.1. Bases de datos de secuencias de DNA y protenas. . . . . . . . . . . . . . . . . . 2148.2.2. Formatos de archivos de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . 2148.2.3. Ejemplo lectura fichero de secuencia . . . . . . . . . . . . . . . . . . . . . . . . . 216

    8.3. Alineamiento de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2168.3.1. Definicion de similitud e identidad . . . . . . . . . . . . . . . . . . . . . . . . . . 217

    8.3.2. Matrices de sustitucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2178.3.3. Significacion estadstica y E-value . . . . . . . . . . . . . . . . . . . . . . . . . . 221

    8.3.4. Eltwilightu ocaso de los alineamientos . . . . . . . . . . . . . . . . . . . . . . . 2228.3.5. Tecnicas y programas de alineamiento . . . . . . . . . . . . . . . . . . . . . . . . 223

    8.3.6. Alineamiento local de pares de secuencias . . . . . . . . . . . . . . . . . . . . . . 2248.3.7. Alineamiento global de pares de secuencias . . . . . . . . . . . . . . . . . . . . . 225

    8.3.8. Alineamiento multiple de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . 2268.3.9. Edicion y visualizacion de alineamientos . . . . . . . . . . . . . . . . . . . . . . . 227

    8.4. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

    9. Filogenia y evolucion molecular 231

    9.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2319.1.1. Teora de la Evolucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232

    9.1.2. Evolucion molecular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2329.1.3. Interpretacion de un arbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233

    9.2. Metodos de reconstruccion filogenetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2369.2.1. Alineamiento multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237

    9.2.2. Modelos de evolucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2379.2.3. Metodos de distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239

    9.2.4. Metodos probabilsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2419.3. Contrastes de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

    9.3.1. Contrastes entre modelos evolutivos . . . . . . . . . . . . . . . . . . . . . . . . . 2479.3.2. Robustez y contraste de arboles. . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

    9.4. Reconstruccion de estados ancestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2529.5. Gua rapida de reconstruccion filogenetica . . . . . . . . . . . . . . . . . . . . . . . . . . 252

    9.6. Programas recomendados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2549.7. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

    III Biologa estructural de protenas 261

    10.Alineamiento de estructura de protenas 263

    10.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26310.2. Descripcion general del metodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26510.3. Comparaciones locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266

    10.4. Construccion del alineamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26810.5. Medidas de similitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272

    10.5.1. Medidas crudas y normalizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 27210.5.2. Una medida con motivacion evolutiva . . . . . . . . . . . . . . . . . . . . . . . . 274

    10.6. Alineamiento multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27510.6.1. Primeros pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

    10.6.2. Construccion del alineamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

  • 7/22/2019 Bioinformtica con

    30/557

    10.7. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27910.8. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

    11.Modelos simplificados de plegamiento de protenas 28311.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28311.2. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285

    11.2.1. Paradoja de Levinthal y experimento de Anfinsen . . . . . . . . . . . . . . . . . 28511.2.2. Paisaje energetico y principio de mnima frustracion . . . . . . . . . . . . . . . . 286

    11.3. Fundamentos teoricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28911.3.1. paisa je energetico del modelo de energa al azar. . . . . . . . . . . . . . . . . . . 28911.3.2. Un paisa je energetico un poco mas realista . . . . . . . . . . . . . . . . . . . . . 29211.3.3. Cinetica del plegamiento y gap de estabilidad . . . . . . . . . . . . . . . . . . . . 29411.3.4. Diagrama de fases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296

    11.4. Algunos ejemplos computacionales sencillos . . . . . . . . . . . . . . . . . . . . . . . . . 29911.4.1. Modelos de grano grueso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29911.4.2. La transicion vtrea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30011.4.3. Disenabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303

    11.4.4. Plegamiento de una protena simplificada . . . . . . . . . . . . . . . . . . . . . . 30511.5. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30811.6. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

    12.Evolucion de estructura de protenas 31312.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31312.2. Origen de nuevas protenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31312.3. Divergencia estructural gradual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316

    12.3.1. Clasificacion de estructura de protenas . . . . . . . . . . . . . . . . . . . . . . . 31812.3.2. Cuantificando la divergencia estructural . . . . . . . . . . . . . . . . . . . . . . . 322

    12.4. Evolucion estructural mediante ensamblaje de modulos. . . . . . . . . . . . . . . . . . . 323

    12.4.1. Peptidos ancestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32312.4.2. Busqueda por recurrencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324

    12.5. Divergencia estructural Vs. ensamblaje de modulos . . . . . . . . . . . . . . . . . . . . . 32612.6. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331

    13.Protenas desordenadas 33313.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33313.2. Desorden en protenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33513.3. Predicion de desorden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336

    13.3.1. Metodos bioinformaticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33713.4. Composicion, distribucion y funcion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34213.5. Enfermedades asociadas a protenas desordenadas. . . . . . . . . . . . . . . . . . . . . . 34413.6. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347

    IV Biologa estructural de acidos nucleicos 349

    14.Estructura, plegamiento y evolucion del RNA 35114.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35114.2. Tipos de RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35114.3. Niveles estructurales del RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353

    14.3.1. Composicion qumica y estructura primaria . . . . . . . . . . . . . . . . . . . . . 353

  • 7/22/2019 Bioinformtica con

    31/557

    14.3.2. Estructura secundaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35414.3.3. Estructura terciaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35614.3.4. Ejemplo estructura tRNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35814.3.5. Arquitectura del RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358

    14.4. Plegamiento de RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360

    14.4.1. Aspectos generales del plegamiento de RNA . . . . . . . . . . . . . . . . . . . . . 36014.4.2. Prediccion de estructuras de RNA . . . . . . . . . . . . . . . . . . . . . . . . . . 36214.4.3. Otros problemas relacionados con el plegamiento . . . . . . . . . . . . . . . . . . 36814.4.4. Biologa Sintetica de RNA: plegamiento inverso . . . . . . . . . . . . . . . . . . . 370

    14.5. Evolucion de RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37114.5.1. El RNA como modelo evolutivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37114.5.2. Redes neutrales de RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37214.5.3. Modelizacion matematica de la evolucion . . . . . . . . . . . . . . . . . . . . . . 37414.5.4. Limitaciones y lneas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37714.5.5. Evolucion dirigida a una estructura objetivo. . . . . . . . . . . . . . . . . . . . . 379

    14.6. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383

    15.Estructura y organizacion del DNA 38715.0.1. Niveles de organizacion del DNA en la cromatina . . . . . . . . . . . . . . . . . . 38715.0.2. Determinacion de la estructura de dominios genomicos . . . . . . . . . . . . . . . 38815.0.3. Determinacion de estructura con IMP . . . . . . . . . . . . . . . . . . . . . . . . 39015.0.4. Ejemplo de determinacion de estructura por IMP . . . . . . . . . . . . . . . . . . 39415.0.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396

    15.1. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397

    V Dinamica estructural y diseno de farmacos 399

    16.Diseno de farmacos asistido por ordenador 40116.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40116.2. Docking protena-ligando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402

    16.2.1. Definicion del problema del docking . . . . . . . . . . . . . . . . . . . . . . . . . 40216.2.2. Componente estructural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40316.2.3. Componente energetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40316.2.4. Docking: consideraciones teoricas . . . . . . . . . . . . . . . . . . . . . . . . . . . 40616.2.5. El proceso de docking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40916.2.6. Evaluacion de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410

    16.3. Cribado virtual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41216.3.1. Posibles escenarios para el VS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41316.3.2. Estudios de VS retrospectivos y prospectivos . . . . . . . . . . . . . . . . . . . . 414

    16.3.3. Herramientas de virtual screening. . . . . . . . . . . . . . . . . . . . . . . . . . . 41516.4. Docking protena-protena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416

    16.4.1. El proceso de docking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41716.4.2. Clasificacion y post-procesado de las soluciones . . . . . . . . . . . . . . . . . . . 419

    16.5. Docking protena-acido nucleico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42016.6. Conclusiones y perspectivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42016.7. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423

    17.Dinamica molecular 42517.1. Introducion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425

  • 7/22/2019 Bioinformtica con

    32/557

    17.2. Mecanica molecular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42617.2.1. El campo de fuerzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426

    17.2.2. Terminos enlazados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42717.2.3. Terminos no enlazados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42817.2.4. Parametrizacion del campo de fuerzas . . . . . . . . . . . . . . . . . . . . . . . . 430

    17.2.5. Minimizacion de energa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43017.3. Simulaciones de dinamica molecular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431

    17.3.1. Calculo de las fuerzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43217.3.2. Integracion de las ecuaciones de movimiento . . . . . . . . . . . . . . . . . . . . . 432

    17.3.3. Condiciones de lmite periodico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43317.3.4. Calculo de las interacciones no enlazantes . . . . . . . . . . . . . . . . . . . . . . 433

    17.3.5. Preparacion y ejecucion de una DM . . . . . . . . . . . . . . . . . . . . . . . . . 43417.3.6. Simulaciones de macromoleculas biologicas . . . . . . . . . . . . . . . . . . . . . 435

    17.4. Metodos hbridos QM/MM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43817.5. Programas y tutoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439

    17.6. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441

    18.Analisis de modos normales 443

    18.1. Introduccion al analisis de modos normales . . . . . . . . . . . . . . . . . . . . . . . . . 44318.1.1. El oscilador armonico simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443

    18.1.2. Modos normales en espacio cartesiano . . . . . . . . . . . . . . . . . . . . . . . . 44518.1.3. Modos mormales en espacio diedro . . . . . . . . . . . . . . . . . . . . . . . . . . 448

    18.2. Modelos de redes elasticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44918.2.1. El modelo de red Gaussiana o GNM . . . . . . . . . . . . . . . . . . . . . . . . . 450

    18.2.2. El modelo de red Anisotropica o ANM . . . . . . . . . . . . . . . . . . . . . . . . 45118.3. La molecula triatomica lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453

    18.4. Ejemplos practicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45618.4.1. Introduccion a ProDy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456

    18.4.2. Calculo de modos normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45618.4.3. Calculo de los factores B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458

    18.4.4. Calculo de una estructura deformada. . . . . . . . . . . . . . . . . . . . . . . . . 46218.5. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465

    VI Biologa de sistemas 467

    19.Biologa de sistemas 46919.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469

    19.2. Redes complejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471

    19.2.1. Definicion de red compleja y conceptos basicos . . . . . . . . . . . . . . . . . . . 47119.2.2. Propiedades de las redes complejas . . . . . . . . . . . . . . . . . . . . . . . . . . 47219.2.3. Breve descripcion de las redes biologicas . . . . . . . . . . . . . . . . . . . . . . . 477

    19.3. Redes de regulacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47819.3.1. Modelos logicos o booleanos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478

    19.3.2. Modelos cineticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48019.3.3. Modelos termodinamicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486

    19.3.4. Regulacion combinatoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48619.3.5. Analisis de motivos de red . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488

    19.3.6. Ruido en expresion genetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494

  • 7/22/2019 Bioinformtica con

    33/557

    19.3.7. Modelos cineticos estocasticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49619.3.8. Diferentes fuentes de ruido en expresion genetica . . . . . . . . . . . . . . . . . . 499

    19.4. Redes metabolicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50219.5. Robustez en los sistemas biologicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506

    19.5.1. Redundancia por duplicacion genica . . . . . . . . . . . . . . . . . . . . . . . . . 507

    19.5.2. Robustez distribuida en el metabolismo . . . . . . . . . . . . . . . . . . . . . . . 50819.6. Lecturas adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51219.7. Herramientas computacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51319.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51419.9. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517

  • 7/22/2019 Bioinformtica con

    34/557

  • 7/22/2019 Bioinformtica con

    35/557

    Parte I

    Fundamentos de bioinformatica,estadstica y gestion de informacion

    cientfica

    1

  • 7/22/2019 Bioinformtica con

    36/557

  • 7/22/2019 Bioinformtica con

    37/557

    Captulo 1

    Bases de datos biomedicas, servidoresweb y otros recursos online

    Natalia Jimenez Lozano

    1.1. Introduccion

    Has consultado alguna vez PubMed para descargar un artculo? Las bases de datos se encuentrantotalmente integradas en nuestro da a da. La mayora de los recursos que utilizamos tienen detras unabase de datos. Y lo mejor de todo es que no hace falta ser un experto en bases de datos para consultarlas!Las bases de datos de las que hablaremos en este captulo disponen de interfaces graficas que facilitan elproceso de consulta, de manera que cualquiera puede ser capaz de recuperar la informaci on requerida.

    Has odo hablar de las bases de datos OMIM, ENSEMBL, UniProtKB o GenBank? Las bases de datosbioinformaticas constituyen una herramienta clave para los investigadores e incluso para los clnicos ensu trabajo. En este captulo vamos a aprender algunos conceptos relacionados con las bases de datosen Bioinformatica.

    1.1.1. Que es un dato biologico?

    Se podra definir dato como el resultado de una medicion. En este captulo hablaremos de bases dedatos (BD) que albergan informacion biologica por lo que el dato biologico sera un tipo particularde dato generado dentro del contexto de una investigacion cientfica. Las mediciones que se realizanen el campo de la investigacion no son simples ya que en la mayora de los casos son el resultado de

    un complejo flujo de traba jo en el laboratorio donde se utilizan muy diversas tecnicas. Podemos ponercomo ejemplo de dato biologico la secuencia de nucleotidos de un gen determinada mediante tecnicas desecuenciacion o la banda correspondiente a un fragmento de DNA separado mediante una electroforesisen gel de agarosa.

    1.1.2. Diferencia entre dato crudo y dato procesado

    En la mayora de los casos es necesario realizar algun tipo de procesamiento sobre los datos parafacilitar la interpretacion de los mismos. Undato crudo es un dato obtenido directamente de la tecnica

    3

  • 7/22/2019 Bioinformtica con

    38/557

    experimental. El procesamiento de los datos normalmente se hace por etapas, de manera que el datoprocesadoresultante de una etapa es el dato crudo de la siguiente.

    Ejemplo: Microarrays de DNA. Como resultado directo de la tecnica experimental, se obtienen unasimagenes de puntos cuyos colores representan las intensidades de las senales (datos crudos). Una vezobtenido los archivos de imagenes, es necesario transformar las intensidades de las senales obtenidas

    en datos numericos. De esta manera se obtiene una matriz de numeros que representa en cada entradala expresion de cada gen (primer dato procesado). Utilizando esta matriz como dato crudo podemosutilizar cualquier metodo de agrupamiento para agrupar los genes segun la similitud de su perfil deexpresion (segundo dato procesado).

    1.1.3. Dato, informacion y conocimiento

    Existe mucha confusion entre los terminos dato, informacion y conocimiento. De hecho en muchasocasiones estos terminos son considerados erroneamente como sinonimos. La diferencia fundamentalradica en que, mientras que a partir de conjuntos de datos se puede derivar la informaciondirectamente,elconocimiento normalmente se deriva de forma indirecta [12, 13]. Utilizaremos un ejemplo para ponerde manifiesto la diferencia que existe entre estos tres conceptos.

    Ejemplo: Imagina que regentas un herbolario y que tienes una base de datos donde registras todoslos datos de tus clientes de manera que conoces sus nombres y los productos que compran en tuestablecimiento. Que los clientes Paula y Javier compren leche sin lactosa cada lunes es un dato quetu tienes almacenado en tu base de datos. Cada vez que quieras saber quienes son los clientes quecompran leche sin lactosa o cuantos litros de leche sin lactosa vendes cada da, consultaras a la basede datos y tendras el resultado. Esto es informacion. Ahora imagina que hay otros 100 clientes quetambien compran leche sin lactosa y que todos ellos son alergicos a la lactosa. Entonces podras concluirque Paula y Javier deben ser alergicos a la lactosa tambien. La alergia de Paula y Javier no se te

    ha proporcionado como dato y tampoco se puede extraer de la base de datos como informaci on. Sinembargo tu has extrapolado esta informacion de manera indirecta y a esto es a lo que llamamosconocimiento.

    Por lo tanto el dato es objetivo y no abstracto y sin embargo la informacion y el conocimiento sonsubjetivos y requieren altos grados de abstraccion. La organizacion de los datos biologicos en bases dedatos facilita el descubrimiento de conocimiento ya que permite poner de manifiesto relaciones entrepiezas de informacion que se desconocan en el momento en que la informacion fue introducida porprimera vez (datos crudos o sin procesar). Otro ejemplo de generacion de conocimiento sera el derivarlos motivos conservados en un conjunto de secuencias proteicas crudas pertenecientes a una base dedatos.

    1.1.4. Caractersticas de los datos biologicos

    Ahora que sabemos lo que es un dato biol ogico y lo distinguimos de la informacion y del conocimiento,veamos cuales son sus caractersticas [4].

    Los datos biologicos sonheterogeneosporque representan entidades diversas que van desde atomoshasta estudios poblacionales, pasando por secuencias de nucleotidos y protenas, estructuras pro-teicas cristalinas, medidas de expresion genica, interacciones protena-protena o protena-DNA,redes e interaccion, celulas, estudios fenotpicos y estudios fisiologicos.

  • 7/22/2019 Bioinformtica con

    39/557

    Los datos biologicos son complejos. Para que te hagas una idea de la complejidad de los datosbiologicos vamos a compararlos con los datos antropometricos. Imagina la diferencia que hayentre los datos correspondientes al peso de una persona y la determinacion una estructura deuna protena sencilla como la insulina. En el primer caso lo unico que tendramos que hacer serapesar al individuo con una bascula. Sin embargo en el segundo caso tendramos que purificar

    la protena, cristalizarla, obtener el difractograma y a partir de este determinar las posicionesen el eje X, Y, Z de cada atomo de cada uno de los 110 aminoacidos de la protena. El datoantropometrico es un numero y el dato biologico es un fichero de mas de mil lneas, 865 de lascuales corresponden a la posicion de uno de los atomos de la estructura.

    Los datos biologicos pueden tener una naturaleza cuantitativa(Ej. peso molecular de una pro-tena) o cualitativa (Ej. funcion de una protena).

    Los datos biologicos son necesariamente dinamicosporque van cambiando segun van evolucio-nando las tecnicas que los generan o van surgiendo nuevas tecnicas que completan el dato. Ej. laprimera secuencia proteica que se determino, la insulina bovina, depositada en la base de datosUniProtKB en el ano 1986 (Identificador P01317; hablaremos de esta base de datos en detalle masadelante) ha sufrido hasta la fecha 126 revisiones. Este dato, como el resto de datos biol ogicos esincompleto ya que seguira evolucionando indefinidamente.

    Los datos biologicos pueden proceder de interpretaciones, de analisis computacionales o bienpueden ser datos confirmados experimentalmente. Veamos algunos ejemplos:

    Datosprocedentes de interpretaciones: la descripcion del nivel de expresion de un gen en untejido determinado por la tecnica de hibridacion in situ. Mediante esta tecnica, el experimen-talista obtiene una imagen correspondiente a una seccion del organismo que este estudiando,y tiene que determinar si la expresion en los tejidos de interes es inexistente, debil, media,fuerte o muy fuerte. Por lo tanto en este caso el experimentalista ha de interpretar el datocrudo (imagen obtenida de la tecnica).

    Datos procedentes de analisis computacionales: estructura secundaria de una protena esun ejemplo de dato obtenido computacionalmente a partir de la secuencia. En este caso eldato biologico esta asociado a una probabilidad. Existe un gran abanico de