en - CINVESTAV

51
Aplicación del Software Libre en la Secuenciación del ADN Ing. Jacob Israel Cervantes Luevano Twitter: @jacobnix Web: http://www.langebio.cinvestav.mx/bioinformatica/jacob/ Email: [email protected]

Transcript of en - CINVESTAV

Page 1: en - CINVESTAV

Aplicación del Software Libre en la Secuenciación del ADNIng. Jacob Israel Cervantes Luevano

Twitter: @jacobnixWeb: http://www.langebio.cinvestav.mx/bioinformatica/jacob/Email: [email protected]

Page 2: en - CINVESTAV
Page 3: en - CINVESTAV

http://labsergen.langebio.cinvestav.mx/en/

Page 4: en - CINVESTAV

En las últimas décadas la ciencia pudo describir el genoma de plantas, bacterias y animales, incluso, del hombre.

El análisis de toda la información genómica de estos seres vivos, ha sido posible gracias a los avances en tecnologías de secuenciación del adn y a la contribución de la informática en lo que se conoce como Bioinformática.

Page 5: en - CINVESTAV

Secuenciación●Obtención de secuencias

ABI 3730

SOLiD

GS 454

Secuencias (Datos para analizar)

>lectura 1ACTGACTGACTGCTGACTGCACTGACGTGTCAAACG

>lectura 2ACTGCGTAGCTATTACGACTAGCG.....

>lectura 1G34567892345

>lectura 2A235343434344

.....

>lectura 135 40 33 33 22

>lectura 223 11 23 34 32

calidadessecuencias(3G)

Page 6: en - CINVESTAV
Page 7: en - CINVESTAV
Page 8: en - CINVESTAV
Page 9: en - CINVESTAV

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 10: en - CINVESTAV

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 11: en - CINVESTAV

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 12: en - CINVESTAV

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 13: en - CINVESTAV

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 14: en - CINVESTAV

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 15: en - CINVESTAV

Secuenciación

Page 16: en - CINVESTAV
Page 17: en - CINVESTAV
Page 18: en - CINVESTAV

Procesamiento de Datos

Page 19: en - CINVESTAV
Page 20: en - CINVESTAV

Secuenciación

●Proyecto de secuenciación o datos para analizar.

●Infraestructura de Supercomputo.

●Infraestructura de Almacenamiento de datos.

●Programas para análisis de los datos.

●Personal(Matemáticos,Estadísticos,Químicos,Biólogos,Bioquímicos,Informáticos).

● Fuentes de Financiamiento (Dinero)

Page 21: en - CINVESTAV

Proyecto de Secuenciación●Instrumento de Secuenciación

ABI 3730

SOLiD

GS 454

Secuencias (Datos para analizar)

>lectura 1ACTGACTGACTGCTGACTGCACTGACGTGTCAAACG

>lectura 2ACTGCGTAGCTATTACGACTAGCG.....

>lectura 1G34567892345

>lectura 2A235343434344

.....

>lectura 135 40 33 33 22

>lectura 223 11 23 34 32

calidadessecuencias(3G)

●Cluster de Computo

Page 22: en - CINVESTAV

Resultados de SecuenciaciónCodigo Genetico

>1_15_1031_F3T223211000103001122003012220220313220021231101311212002131213>1_15_1123_F3T020133331212300011132111232201001203112110113232110022212103>1_15_1129_F3T220013030313200022123013111221311132200110232201311320021330

@+5BEFOREAAAAAACGTTGCAGGATTCCTT+IIIIIIIIIIIIIIIIIIIIII@+5AFTERACGTTGCAGGATTCCTTAAAAA+IIIIIIIIIIIIIIIIIIIIII@+5BEFOREANDAFTERAAAAAACGTTGCAGGATTCCTTAAAAA+IIIIIIIIIIIIIIIIIIIIIIIIIII

>DH10BAGCTTTTCATTCTGACTGCAACGGGCAATAATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCGTCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCCATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAAAACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCGTATTGCGGCAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACC

Datos en Terabytes !!!!

Page 23: en - CINVESTAV

Software Libre

La Aplicación del Software Libre es tan vasta que casi en cualquier nicho puede ser aplicado de diversas maneras.

Un nicho con un espectro de aplicación muy amplio y diverso es la CIENCIA e INVESTIGACIÓN donde la BIOINFORMÁTICA para su avance se apoya fuertemente del Software Libre.

ACTGACTGA.....

Page 24: en - CINVESTAV

¿Porqué Bioinformática?

La investigación en biología y en otras ciencias produce grandes cantidades de información.

La única forma de analizar la información es mediante el uso de computadoras y programas.

Surge la Bioinformática.

ACTGACTGA.....

Page 25: en - CINVESTAV

¿Qué es Bioinformática?

●Aplicación de tecnología de computadores a la gestión y análisis de datos biológicos.

●Convergencia de campos de estudios interdisciplinarios: ● informática.● matemática aplicada.● estadística.● inteligencia artificial.● química y bioquímica, biología.

● Solucionar problemas, analizar datos, o simular sistemas o mecanismos biológicos.

Page 26: en - CINVESTAV
Page 27: en - CINVESTAV

¿ Qué es un Cluster de Computo ?

● Grupo de múltiples computadoras.● Unidos mediante una red de alta velocidad.● El conjunto es visto como una única computadora.● Mas potente que una PC de escritorio.

© Jacob Israel Cervantes Luevano

Figura 1.Arquitectura de un Cluster de Computadoras

Page 28: en - CINVESTAV

Clasificación de los Clusters

● Clusters de Alto rendimiento.(HPC - High Performance)● Alta Disponibilidad.(HA – High Availability)● Alta Eficiencia.(HT – High Throughput)● Escalabilidad.

También se pueden clasificar como:● Clusters Comerciales(HA y HT)● Clusters Científicos(HPC)

© Jacob Israel Cervantes Luevano

Figura 2. Nasa Columbia

Page 29: en - CINVESTAV

Componentes de un Cluster

● Hardware Servidor (frontend). Nodos de computo (backend). Red.

● Software Sistema Operativo. Programas para administración de recursos. Programas para programación en paralelo y

distribuida.

© Jacob Israel Cervantes Luevano

Page 30: en - CINVESTAV

Componentes de un Cluster

© Jacob Israel Cervantes Luevano

Page 31: en - CINVESTAV

Componentes de un Cluster ( Front End )

● Normalmente es una gran máquina.● Gran capacidad de almacenamiento.● Conexión a red externa.● Repositorio de los principales servicios y componentes

de software.

© Jacob Israel Cervantes Luevano

Figura 3. Esquema de un cluster

INTERNET

MacMac

PCPC

MacMac

PCPC

MacMac

GNULINUX

GNULINUX

INTRANET

Page 32: en - CINVESTAV

Componentes de un Cluster (Nodos)

● Ejecutan las tareas en el cluster.● Almacenamiento temporal, permanente o diskless.● ¿Mismos componentes de un PC convencional ?● Memoria usualmente muy alta.

© Jacob Israel Cervantes Luevano

Figura 3. Esquema de un cluster

INTERNET

MacMac

PCPC

MacMac

PCPC

MacMac

GNULINUX

GNULINUX

INTRANET

Page 33: en - CINVESTAV

Componentes de un Cluster(Almacenamiento)

● Interno en el servidor(IDE, SATA I, SATA II, SCSI...).● NAS(Network Attached Storage, 1TB,2TB,3TB,4TB).● NAS USB o Gigabit Ethernet. ● NAS a través de protocolos NFS,FTP, CIFS/SMB,AFP.● Unidades de Cinta.

© Jacob Israel Cervantes Luevano

Figura 3. Esquema de un cluster

MacMac

PCPC

MacMac

PCPC

MacMac

GNULINUX

GNULINUX

INTRANET

Page 34: en - CINVESTAV

Componentes de un Cluster (Almacenamiento)

© Jacob Israel Cervantes Luevano

Figura 3. MD1000 – 15x1TB SATA (RAID-5 hotspare)

Page 35: en - CINVESTAV

Componentes de un Cluster(Red)

● Ethernet, Fast Ethernet, Gigabit Ethernet.

● Myrinet(Red Clase II, >1Gbps, Alto costo).

● Infiniband(Alto costo). 2.5Gb/s modo simple.

● La opción más utilizada es Gigabit Ethernet(1000Mbps)

© Jacob Israel Cervantes Luevano

Page 36: en - CINVESTAV

Componentes de un Cluster(Software) Servicios en el Servidor

● Autenticación remota (secure shell).

● Montaje remoto de sistemas de archivos(NFS,autofs).

● Middleware:● Manejo de Recursos(RS).

● ¿Qué disponibilidad de recursos existen?● ¿Cómo administro y distribuyo los recursos?

Torque/PBS (Administrador de Recursos) Maui (Planificador )

© Jacob Israel Cervantes Luevano

Page 37: en - CINVESTAV

Componentes de un Cluster(Software) Servicios en el Servidor

Nodo con problema

Lista Nodos esclavos

Nodo estable

Gráficas del uso del cluster

Page 38: en - CINVESTAV

Rocks and Rolls

● Distribución de Linux : CentOS 5.x, 6.x, 7.x

● Clon a nivel binario de Red Hat Linux (CentOS).

● Utilizado para montaje HPC, pequeña y gran escala.

● Paquetes configurados “Rolls”.

● Mas todo lo demás que acabo de comentar.

© Jacob Israel Cervantes Luevano

http://www.rocksclusters.org

Page 39: en - CINVESTAV

Supercomputo - Sistema Operativo/Procesador (top500.org)

Page 40: en - CINVESTAV

Supercomputo Genomica Cinvestav Langebio

"FLoating point Operations Per Second" u Operaciones de punto(o coma) flotante por segundo.

Los FLOPS son una medida de rendimiento de una computadora, especialmente en el campo científico, en donde se utiliza mucho las operaciones con datos de tipo flotante, para realizar simulaciones precisas y obtener resultados fidedignos.

Page 41: en - CINVESTAV

¿Principales Áreas de Investigación?

© Jacob Israel Cervantes Luevano

●Análisis de Expresión Génica.

●Análisis de mutaciones, polimorfismos.

●Ensamblado de Genomas.

●Muchas más ..

Page 42: en - CINVESTAV

Software Libre Bioinformática

© Jacob Israel Cervantes Luevano

●http://en.wikipedia.org/wiki/List_of_opensource_bioinformatics_software

Page 44: en - CINVESTAV

Desarrollo de Software Libre

https://github.com/JacobIsrael?tab=repositorieshttp://datos.langebio.cinvestav.mx/~jacob/projects/qsv/index.html

Page 46: en - CINVESTAV

Desarrollo de Software LibreThis screenshot shows the main user interface search page

Search Methods:

● Contig Name● Keywords / Descriptions● Blast

● Existing Analisys

Page 47: en - CINVESTAV

Desarrollo de Software LibreThis screenshot shows the main user interface search page

Hsp BitScoreColor Bar

Gene Model (fgenesh abinitio)

454 GS 20 reads

Live LinksBlast HSPs

ZMGI HitNR HitArabidopsis Hit

Blast HSPs (hit 1)

Blast2Gene

Page 48: en - CINVESTAV

Query Sequence VisualizerDevelopment Tools

● Server● 100% Full Linux Development● C# (C Sharp)● Mono Runtime● Web Services (asmx) ● XSP 2 for ASP.NET testing● Apache Web Server● Shell Scripts, Python, Perl modules

● Client● Javascript● Html 4● Jquery● DojoToolkit

● Database● MySQL (optional)● PostgreSQL

Mono. Project by Miguel De Icaza

Page 49: en - CINVESTAV

México aporta el Genoma del Maíz al conocimiento científico mundial.

Page 50: en - CINVESTAV

Artículo en Nature sobre el Genoma de

la Planta Carnivora

Page 51: en - CINVESTAV