en - CINVESTAV

Post on 16-Jul-2022

12 views 0 download

Transcript of en - CINVESTAV

Aplicación del Software Libre en la Secuenciación del ADNIng. Jacob Israel Cervantes Luevano

Twitter: @jacobnixWeb: http://www.langebio.cinvestav.mx/bioinformatica/jacob/Email: jacob.cervantes@cinvestav.mx

http://labsergen.langebio.cinvestav.mx/en/

En las últimas décadas la ciencia pudo describir el genoma de plantas, bacterias y animales, incluso, del hombre.

El análisis de toda la información genómica de estos seres vivos, ha sido posible gracias a los avances en tecnologías de secuenciación del adn y a la contribución de la informática en lo que se conoce como Bioinformática.

Secuenciación●Obtención de secuencias

ABI 3730

SOLiD

GS 454

Secuencias (Datos para analizar)

>lectura 1ACTGACTGACTGCTGACTGCACTGACGTGTCAAACG

>lectura 2ACTGCGTAGCTATTACGACTAGCG.....

>lectura 1G34567892345

>lectura 2A235343434344

.....

>lectura 135 40 33 33 22

>lectura 223 11 23 34 32

calidadessecuencias(3G)

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Secuenciación

Procesamiento de Datos

Secuenciación

●Proyecto de secuenciación o datos para analizar.

●Infraestructura de Supercomputo.

●Infraestructura de Almacenamiento de datos.

●Programas para análisis de los datos.

●Personal(Matemáticos,Estadísticos,Químicos,Biólogos,Bioquímicos,Informáticos).

● Fuentes de Financiamiento (Dinero)

Proyecto de Secuenciación●Instrumento de Secuenciación

ABI 3730

SOLiD

GS 454

Secuencias (Datos para analizar)

>lectura 1ACTGACTGACTGCTGACTGCACTGACGTGTCAAACG

>lectura 2ACTGCGTAGCTATTACGACTAGCG.....

>lectura 1G34567892345

>lectura 2A235343434344

.....

>lectura 135 40 33 33 22

>lectura 223 11 23 34 32

calidadessecuencias(3G)

●Cluster de Computo

Resultados de SecuenciaciónCodigo Genetico

>1_15_1031_F3T223211000103001122003012220220313220021231101311212002131213>1_15_1123_F3T020133331212300011132111232201001203112110113232110022212103>1_15_1129_F3T220013030313200022123013111221311132200110232201311320021330

@+5BEFOREAAAAAACGTTGCAGGATTCCTT+IIIIIIIIIIIIIIIIIIIIII@+5AFTERACGTTGCAGGATTCCTTAAAAA+IIIIIIIIIIIIIIIIIIIIII@+5BEFOREANDAFTERAAAAAACGTTGCAGGATTCCTTAAAAA+IIIIIIIIIIIIIIIIIIIIIIIIIII

>DH10BAGCTTTTCATTCTGACTGCAACGGGCAATAATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCGTCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCCATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAAAACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCGTATTGCGGCAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACC

Datos en Terabytes !!!!

Software Libre

La Aplicación del Software Libre es tan vasta que casi en cualquier nicho puede ser aplicado de diversas maneras.

Un nicho con un espectro de aplicación muy amplio y diverso es la CIENCIA e INVESTIGACIÓN donde la BIOINFORMÁTICA para su avance se apoya fuertemente del Software Libre.

ACTGACTGA.....

¿Porqué Bioinformática?

La investigación en biología y en otras ciencias produce grandes cantidades de información.

La única forma de analizar la información es mediante el uso de computadoras y programas.

Surge la Bioinformática.

ACTGACTGA.....

¿Qué es Bioinformática?

●Aplicación de tecnología de computadores a la gestión y análisis de datos biológicos.

●Convergencia de campos de estudios interdisciplinarios: ● informática.● matemática aplicada.● estadística.● inteligencia artificial.● química y bioquímica, biología.

● Solucionar problemas, analizar datos, o simular sistemas o mecanismos biológicos.

¿ Qué es un Cluster de Computo ?

● Grupo de múltiples computadoras.● Unidos mediante una red de alta velocidad.● El conjunto es visto como una única computadora.● Mas potente que una PC de escritorio.

© Jacob Israel Cervantes Luevano

Figura 1.Arquitectura de un Cluster de Computadoras

Clasificación de los Clusters

● Clusters de Alto rendimiento.(HPC - High Performance)● Alta Disponibilidad.(HA – High Availability)● Alta Eficiencia.(HT – High Throughput)● Escalabilidad.

También se pueden clasificar como:● Clusters Comerciales(HA y HT)● Clusters Científicos(HPC)

© Jacob Israel Cervantes Luevano

Figura 2. Nasa Columbia

Componentes de un Cluster

● Hardware Servidor (frontend). Nodos de computo (backend). Red.

● Software Sistema Operativo. Programas para administración de recursos. Programas para programación en paralelo y

distribuida.

© Jacob Israel Cervantes Luevano

Componentes de un Cluster

© Jacob Israel Cervantes Luevano

Componentes de un Cluster ( Front End )

● Normalmente es una gran máquina.● Gran capacidad de almacenamiento.● Conexión a red externa.● Repositorio de los principales servicios y componentes

de software.

© Jacob Israel Cervantes Luevano

Figura 3. Esquema de un cluster

INTERNET

MacMac

PCPC

MacMac

PCPC

MacMac

GNULINUX

GNULINUX

INTRANET

Componentes de un Cluster (Nodos)

● Ejecutan las tareas en el cluster.● Almacenamiento temporal, permanente o diskless.● ¿Mismos componentes de un PC convencional ?● Memoria usualmente muy alta.

© Jacob Israel Cervantes Luevano

Figura 3. Esquema de un cluster

INTERNET

MacMac

PCPC

MacMac

PCPC

MacMac

GNULINUX

GNULINUX

INTRANET

Componentes de un Cluster(Almacenamiento)

● Interno en el servidor(IDE, SATA I, SATA II, SCSI...).● NAS(Network Attached Storage, 1TB,2TB,3TB,4TB).● NAS USB o Gigabit Ethernet. ● NAS a través de protocolos NFS,FTP, CIFS/SMB,AFP.● Unidades de Cinta.

© Jacob Israel Cervantes Luevano

Figura 3. Esquema de un cluster

MacMac

PCPC

MacMac

PCPC

MacMac

GNULINUX

GNULINUX

INTRANET

Componentes de un Cluster (Almacenamiento)

© Jacob Israel Cervantes Luevano

Figura 3. MD1000 – 15x1TB SATA (RAID-5 hotspare)

Componentes de un Cluster(Red)

● Ethernet, Fast Ethernet, Gigabit Ethernet.

● Myrinet(Red Clase II, >1Gbps, Alto costo).

● Infiniband(Alto costo). 2.5Gb/s modo simple.

● La opción más utilizada es Gigabit Ethernet(1000Mbps)

© Jacob Israel Cervantes Luevano

Componentes de un Cluster(Software) Servicios en el Servidor

● Autenticación remota (secure shell).

● Montaje remoto de sistemas de archivos(NFS,autofs).

● Middleware:● Manejo de Recursos(RS).

● ¿Qué disponibilidad de recursos existen?● ¿Cómo administro y distribuyo los recursos?

Torque/PBS (Administrador de Recursos) Maui (Planificador )

© Jacob Israel Cervantes Luevano

Componentes de un Cluster(Software) Servicios en el Servidor

Nodo con problema

Lista Nodos esclavos

Nodo estable

Gráficas del uso del cluster

Rocks and Rolls

● Distribución de Linux : CentOS 5.x, 6.x, 7.x

● Clon a nivel binario de Red Hat Linux (CentOS).

● Utilizado para montaje HPC, pequeña y gran escala.

● Paquetes configurados “Rolls”.

● Mas todo lo demás que acabo de comentar.

© Jacob Israel Cervantes Luevano

http://www.rocksclusters.org

Supercomputo - Sistema Operativo/Procesador (top500.org)

Supercomputo Genomica Cinvestav Langebio

"FLoating point Operations Per Second" u Operaciones de punto(o coma) flotante por segundo.

Los FLOPS son una medida de rendimiento de una computadora, especialmente en el campo científico, en donde se utiliza mucho las operaciones con datos de tipo flotante, para realizar simulaciones precisas y obtener resultados fidedignos.

¿Principales Áreas de Investigación?

© Jacob Israel Cervantes Luevano

●Análisis de Expresión Génica.

●Análisis de mutaciones, polimorfismos.

●Ensamblado de Genomas.

●Muchas más ..

Software Libre Bioinformática

© Jacob Israel Cervantes Luevano

●http://en.wikipedia.org/wiki/List_of_opensource_bioinformatics_software

Desarrollo de Software Libre

https://github.com/JacobIsrael?tab=repositorieshttp://datos.langebio.cinvestav.mx/~jacob/projects/qsv/index.html

Desarrollo de Software LibreThis screenshot shows the main user interface search page

Search Methods:

● Contig Name● Keywords / Descriptions● Blast

● Existing Analisys

Desarrollo de Software LibreThis screenshot shows the main user interface search page

Hsp BitScoreColor Bar

Gene Model (fgenesh abinitio)

454 GS 20 reads

Live LinksBlast HSPs

ZMGI HitNR HitArabidopsis Hit

Blast HSPs (hit 1)

Blast2Gene

Query Sequence VisualizerDevelopment Tools

● Server● 100% Full Linux Development● C# (C Sharp)● Mono Runtime● Web Services (asmx) ● XSP 2 for ASP.NET testing● Apache Web Server● Shell Scripts, Python, Perl modules

● Client● Javascript● Html 4● Jquery● DojoToolkit

● Database● MySQL (optional)● PostgreSQL

Mono. Project by Miguel De Icaza

México aporta el Genoma del Maíz al conocimiento científico mundial.

Artículo en Nature sobre el Genoma de

la Planta Carnivora