genoma humano-2

46
El Genoma es el conjunto de instruccio nes completas para construir y mantener la vida de un organismo, humano o cualquiera otro. En otras palabras, es el código que hace que seamos como

Transcript of genoma humano-2

  • El Genoma es el conjunto de instrucciones completas para construir y mantener la vida de un organismo, humano o cualquiera otro.

    En otras palabras, es el cdigo que hace que seamos como somos.

  • CaractersticasGenoma nuclearGenoma mitocondrialTamao3,300 Mb16.6 KbNmero de Molculas diferentes23 (en XX) o 24 (en XY) dobles cadenas linealesUna molcula de cadena doble circularNumero total de moleculasde DNA por clula23 y 46 en cel. DiploidesVarios milesProtenas relacionadasVarios tipos de histonas y no histonasLa mayor parte libre de protenasNumero de genesAproximadamente 80,00037Porcentaje de DNA CODIFICANTE (Polipptidos y RNA)Aprox. 3%Aprox. 93%Porcentaje de genes codificantes para RNA5% (3000-4000/80,00065% (24/37)Densidad gnicaAprox. 1/40kb1/0.45kbDNA repetitivoFraccin importanteMuy pocoTranscripcinGran parte de los genes se transcriben individualmenteTranscripcin contnua de genes mltiplesIntronesPresentes en gran parte de los genesAusentesRecombinacinAl menos un evento entre cada par de homlogos en meiosisNo evidenteTipo de herenciaMendeliana para secuencias en el X y en los autosomas; paterna para secuencias en el YExclusivamente materna

  • GENOMA HUMANOGenoma Nuclear3,300 Mb80,000 genesGenoma mitocondrial16.6 Kb, 37 genes75%25%2 genes rRNA22 genes tRNA13 genes polipptidosGenes y secuencias relacionadasDNA extragnico60% nica o bajo numero de copias40% moderadamente repetitivasnico o moderadamente repetitivo10%90%DNA codificanteDNA no codificantePseudogenesFragmentos gnicosIntrones , secuencias no traducidasRepetidos en tandemRepetidos dispersos

  • Genoma nuclear

  • COMPONENTES:DNA IntragnicoGenes:. Genes para RNA. Distribucin de genes. Secuencias reguladoras. Elementos ultraconservadosPseudogenesDNA intergnico. Repetitivo en tandem. Satlites. Minisatlites. MicrosatlitesDNA repetitivo disperso. SINE. LINE. HERV

  • Este diagrama esquemtico muestra un gen en relacin a su estructura fsica (doble hlice de ADN) y a un cromosoma (derecha).

  • Actualmente se estima que el genoma humano contiene entre 20.000 y 25.000 genes codificantes de protenas, estimacin muy inferior a las predicciones iniciales que hablaban de unos 100.000 genes o ms.

  • Esto implica que el genoma humano tiene menos del doble de genes que organismos eucariotas mucho ms simples, como la mosca de la fruta o el nematodo Caenorhabditis elegans. Sin embargo, las clulas humanas recurren ampliamente al splicing alternativo para producir varias protenas distintas a partir de un mismo gen, como consecuencia de lo cual el proteoma humano es ms amplio que el de otros organismos mucho ms simples.

  • Concepto actual de genEn base a los resultados recientes, algunos autores han propuesto redefinir el concepto actual de gen. la unin de secuencias genmicas que codifican un conjunto coherente de productos funcionales, potencialmente solapantes

  • Concepto de genLa definicin propuesta, se fundamenta en el producto funcional del gen, por lo que se mantiene una relacin ms coherente entre un gen y una funcin biolgica. Como consecuencia, con la adopcin de esta nueva definicin, el nmero de genes del genoma humano aumentar significativamente.

  • Genes de ARNAdems de los genes codificantes de protenas, el genoma humano contiene varios miles de genes ARN, cuya transcripcin produce ARN de transferencia (ARNt), ARN ribosmico (ARNr), microARN (miARN), u otros genes ARN no codificantes. Los ARN ribosomales y de transferencia son esenciales en la constitucin de los ribosomas y en la traduccin de las protenas.

  • microRNAPor su parte, los microARN tienen gran importancia en la regulacin de la expresin gnica, estimndose que hasta un 20-30% de los genes del genoma humano puede estar regulado por el mecanismo de interferencia por miARN. Hasta el momento se han identificado ms de 300 genes de miARN y se estima que pueden existir unos 500.

  • Distribucin de genes La densidad media de genes es de 1 gen cada 100 kb, con un tamao medio de 20-30 kb, y un nmero de exones promedio de 7-8 por cada gen, con un tamao medio de 150 nucletidos (por exn). El tamao medio de un ARNm es de 1,8-2,2 kb, incluyendo las regiones UTR (regiones no traducidas flanqueantes), siendo la longitud media de la regin codificante de 1,4 kb

  • IscorosEl genoma humano se caracteriza por presentar una gran heterogeneidad en su secuencia. En particular, la riqueza en bases de guanina (G) y citosina (C) frente a las de adenina (A) y timina (T) se distribuye heterogneamente, con regiones muy ricas en G+C flanqueadas por regiones muy pobres, siendo el contenido medio de G+C del 41%, menor al tericamente esperado (50%).

  • IscorosDicha heterogeneidad esta correlacionada con la riqueza en genes, de manera que los genes tienden a concentrarse en las regiones ms ricas en G+C. Regiones ricas en G+C recibieron el nombre de iscoros H; del ingls High y regiones ricas en A+T iscoros L; del ingls Low.

  • Secuencias reguladorasEl genoma humano tiene diversos sistemas de regulacin de la expresin gnica, basados en la regulacin de la unin de factores de transcripcin a las secuencias promotoras, en mecanismos de modificacin epigentica (metilacin del ADN o metilacin-acetilacin de histonas) o en el control de la accesibilidad a los promotores determinada por el grado de condensacin de la cromatina; todos ellos muy interrelacionados.

  • Secuencias reguladorasNo obstante, toda la informacin necesaria para la regulacin de la expresin gnica, en funcin del ambiente celular, est codificada en la secuencia de ADN al igual que lo estn los genes.Las secuencias reguladoras son tpicamente secuencias cortas presentes en las proximidades o en el interior (frecuentemente en intrones) de los genes. La identificacin de secuencias reguladoras se basa en parte en la bsqueda de regiones no codificantes evolutivamente conservadas.

  • Elementos ultraconservados Reciben este nombre regiones que han mostrado una constancia evolutiva casi total, mayor incluso que las secuencias codificantes de protenas, mediante estudios de genmica comparada. Estas secuencias generalmente se solapan con intrones de genes implicados en la regulacin de la transcripcin o en el desarrollo embrionario y con exones de genes relacionados con el procesamiento del ARN

  • Pseudogenes En el genoma humano se han encontrado asimismo unos 19,000 pseudogenes, que son versiones completas o parciales de genes que han acumulado diversas mutaciones y que generalmente no se transcriben. Se clasifican en pseudogenes no procesados (~30%) y pseudogenes procesados (~70%)

  • ADN intergnico Como se ha dicho, las regiones intergnicas o extragnicas comprenden la mayor parte de la secuencia del genoma humano, y su funcin es generalmente desconocida Buena parte de estas regiones est compuesta por elementos repetitivos, clasificables como repeticiones en tndem o repeticiones dispersas.

  • ADN intergnicoEl notable grado de conservacin evolutiva de algunas de estas secuencias parece indicar que poseen otras funciones esenciales an desconocidas o poco conocidas. Por lo tanto, algunos prefieren denominarlo "ADN no codificante" en lugar de ADN basura como sugirieron otros investigadores.

  • Frecuencia de las diversas regiones intergnicas e intragnicas del cromosoma 22. Adaptado de: Dunham, I., et al., 1999. The DNA sequence of human chromosome 22, Nature 402(6761):489495, 1999.

  • SatlitesEl conjunto de repeticiones en tndem de tipo satlite comprende un total de 250 Mb del genoma humano. Son secuencias de entre 5 y varios cientos de nucletidos que se repiten en tndem miles de veces generando regiones repetidas con tamaos que oscilan entre 100 kb (100.000 nucletidos) hasta varias megabases.

  • SatlitesLas secuencias satlite tienen una riqueza en nucletidos A+T superior a la media del genoma y en consecuencia son menos densas. Hay principalmente 6 tipos de repeticiones de ADN satlite:

  • Satlite 1: secuencia bsica de 42 nucletidos. Situado en los centrmeros de los cromosomas 3 y 4 y el el brazo corto de los cromosomas acrocntricos (en posicin distal respecto al cluster codificante de ARNr). Satlite 2: la secuencia bsica es ATTCCATTCG. Presente en las proximidades de los centrmeros de los cromosomas 2 y 10, y en la constriccin secundaria de 1 y 16. Satlite 3: la secuencia bsica es ATTCC. Presente en la constriccin secundaria de los cromosomas 9 e Y, y en posicin proximal respecto al cluster de ADNr del brazo corto de los cromosomas acrocntricos. Satlite alfa: secuencia bsica de 171 nucletidos. Forma parte del ADN de los centrmeros cromosmicos. Satlite beta: secuencia bsica de 68 nucletidos. Aparece en torno al centrmero en los cromosomas acrocntricos y en la constriccin secundaria del cromosoma 1. Satlite gamma: secuencia bsica de 220 nucletidos. Prximo al centrmero de los cromosomas 8 y X.

  • inisatlitesEstn compuestas por una unidad bsica de secuencia de 6-25 nucletidos que se repite en tndem generando secuencias de entre 100 y 20,000 pares de bases. Se estima que el genoma humano contiene unos 30,000 minisatlites.

  • MinisatlitesDiversos estudios han relacionado los minisatlites con procesos de regulacin de la expresin gnica, como:1. El control del nivel de transcripcin, 2. El splicing alternativo o la impronta (imprinting). 3. Asimismo, se han asociado con puntos de fragilidad cromosmica dado que se sitan prximos a lugares preferentes de rotura cromosmica, translocacin gentica y recombinacin meitica. 4. Por ltimo, algunos minisatlites humanos (~10%) son hipermutables, presentando una tasa media de mutacin entre el 0.5% y el 20% en las clulas de la lnea germinal, siendo as las regiones ms inestables del genoma humano conocidas hasta la fecha.

  • MinisatlitesEn el genoma humano, aproximadamente el 90% de los minisatlites se sitan en los telmeros de los cromosomas. La secuencia bsica de seis nucletidos TTAGGG se repite miles de veces en tndem, generando regiones de 5-20 kb que conforman los telmeros.

  • MinisatlitesAlgunos minisatlites por su gran inestabilidad presentan una notable variabilidad entre individuos distintos. Se consideran polimorfismos multiallicos, dado que pueden presentarse en un nmero de repeticiones muy variable, y se denominan VNTR (acrnimo de Variable number tandem repeat). Son marcadores muy utilizados en gentica forense, ya que permiten establecer una huella gentica caracterstica de cada individuo, y son identificables mediante Southern blot e hibridacin.

  • MicrosatlitesEstn compuestos por secuencias bsicas de 2-4 nucletidos, cuya repeticin en tndem origina frecuentemente secuencias de menos de 150 nucletidos. Algunos ejemplos importantes son el dinucletido CA y el trinucletido CAG.

  • MicrosatlitesLos microsatlites son tambin polimorfismos multiallicos, denominados STR (acrnimo de Short Tandem Repeats) y pueden identificarse mediante PCR, de modo rpido y sencillo. Se estima que el genoma humano contiene unos 200,000 microsatlites, que se distribuyen ms o menos homogneamente, al contrario que los minisatlites, lo que los hace ms informativos como marcadores.

  • ADN repetitivo dispersoSon secuencias de ADN que se repiten de modo disperso por todo el genoma, constituyendo el 45% del genoma humano. Los elementos cuantitativamente ms importantes son los LINEs y SINEs, que se distinguen por el tamao de la unidad repetida.

  • ADN repetitivo dispersoEstas secuencias tienen la potencialidad de autopropagarse al transcribirse a una ARNm intermediario, retrotranscribirse e insertarse en otro punto del genoma.Este fenmeno se produce con una baja frecuencia, estimndose que 1 de cada 100-200 neonatos portan una insercin nueva de un Alu o un L1, que pueden resultar patognicos por mutagnesis insercional, por desregulacin de la expresin de genes prximos (por los propios promotores de los SINE y LINE) o por recombinacin ilegtima entre dos copias idnticas de distinta localizacin cromosmica (recombinacin intra o intercromosmica), especialmente entre elementos Alu.

  • SINEAcrnimo del ingls Short Interspersed Nuclear Elements (Elementos nucleares dispersos cortos). Son secuencias cortas, generalmente de unos pocos cientos de bases, que aparecen repetidas miles de veces en el genoma humano. Suponen el 13% del genoma humano, un 10% debido exclusivamente a la familia de elementos Alu (caracterstica de primates).

  • SECUENCIAS ALULos elementos Alu son secuencias de 250-280 nucletidos presentes en 1,500,000 de copias dispersas por todo el genoma. Estructuralmente son dmeros casi idnticos, excepto que la segunda unidad contiene un inserto de 32 nucletidos, siendo mayor que la primera.

  • LINEAcrnimo del ingls Long Interspersed Nuclear Elements (Elementos nucleares dispersos largos). Constituyen en 20% del genoma humano. La familia de mayor importancia cuantitativa es LINE-1 o L1 que es una secuencia de 6 kb repetida unas 800,000 veces de modo disperso por todo el genoma, aunque la gran mayora de las copias es incompleta al presentar el extremo 5' truncado por una retrotranscripcin incompleta. As, se estima que hay unas 5.000 copias completas de L1, slo 90 de las cuales son activas, estando el resto inhibidas por metilacin de su promotor.

  • LINELos elementos LINE completos son codificantes. En concreto LINE-1 codifica dos protenas:Protena de unin a ARN (RNA-binding protein): codificada por el marco de lectura abierto 1 (ORF1, acrnimo del ingls Open reading Frame 1) Enzima con actividad retrotranscriptasa y endonucleasa: codificada por el ORF2.

  • Esquema simplificado del mecanismo de retrotransposicin de un elemento LINE y un SINE. Un elemento LINE es transcrito produciendo un ARNm que sale del ncleo celular. En el citoplasma se traduce en sus dos marcos de lectura abiertos generando ambas protenas que para simplificar se han representado como ORF1p y ORF2p. Ambas permiten retrotranscribir el ARNm del LINE y de otros retrotransposones no autnomos, como SINEs y pseudogenes procesados. Durante la retrotranscripcin la nueva secuencia de ADN se integra en otro punto del genoma.

  • HERVAcrnimo de Human endogenous retrovirus (retrovirus endgenos humanos). Los retrovirus son virus cuyo genoma est compuesto por ARN, capaces de retrotranscribirse e integrar su genoma en el de la clula infectada.As, los HERV son copias parciales del genoma de retrovirus integrados en el genoma humano a lo largo de la evolucin de los vertebrados, vestigios de antiguas infecciones retroviraleS que afectaron a clulas de la lnea germinal. Algunas estimaciones establecen que hay unas 98,000 secuencias HERV, mientras que otras afirman que son ms de 400,000. En cualquier caso, se acepta que en torno al 5-8% del genoma humano est constituido por genomas antiguamente virales. El tamao de un genoma retroviral completo es de en torno a 6-11 kb, pero la mayora de los HERV son copias incompletas.

  • Transposones de DNABajo la denominacin de transposones a veces se incluyen los retrotransposones, tales como los pseudogenes procesados, los SINEs y los LINEs. En tal caso se habla de transposones de clase I para hacer referencia a los retrotransposones, y de clase II para referirse a transposones de ADN, a los que se dedica el presente apartado.

  • TRANSPOSONESLos transposones de ADN completos poseen la potencialidad de autopropagarse sin un intermediario de ARNm seguido de retrotranscripcin. Un transposn contiene en gen de una enzima transposasa, flanqueado por repeticiones invertidas. Su mecanismo de transposicin se basa en cortar y pegar, moviendo su secuencia a otra localizacin distinta del genoma.

  • TRANSPOSASASLos distintos tipos de transposasas actan de modo diferente, habiendo algunas capaces de unirse a cualquier parte del genoma mientras que otras se unen a secuencias diana especficas.

  • VARIAVILIDADSi bien dos seres humanos del mismo sexo comparten un porcentaje elevadsimo (en torno al 99,9%) de su secuencia de ADN, lo que nos permite trabajar con una nica secuencia de referencia, pequeas variaciones genmicas fundamentan buena parte de la variabilidad fenotpica interindividual

  • VARIAVILIDADSNPs La principal fuente de variabilidad en los genomas de dos seres humanos procede de las variaciones en un slo nucletido, conocidas como SNPs (Single nucleotide polimorphisms), en las cuales se han centrado la mayor parte de los estudios.

  • variabilidadDada su importancia, en la actualidad existe un proyecto internacional (International HapMap Project) para catalogar a gran escala los SNPs del genoma humano. Los SNP son marcadores tetrallicos, dado que en teora en una posicin puede haber cuatro nucletidos distintos, cada uno de los cuales identificara un alelo; sin embargo, en la prctica suelen presentar slo dos alelos en la poblacin. Se estima que la frecuencia de SNPs en el genoma humano es de un SNP cada 500-100 pares de bases , de los que una parte relevante son polimorfismos codificantes, que causan la sustitucin de un aminocido por otro en una protena.