04.ORGANIZACIÓN Y SECUENCIACIÓN DE LOS GENOMAS CELULARES

7
ORGANIZACIÓN Y SECUENCIACIÓN DE LOS GENOMAS CELULARES Como material genético, el ADN proporciona un patrón que dirige todas las actividades celulares y determina el plan de desarrollo de los organismos multicelulares. Por lo tanto, entender la estructura genética y su función resulta fundamental para obtener una visión de la biología molecular de las células. Los genomas de la mayoría de los eucariotas son grandes y más complejos que los de procariotas. El gran tamaño de los genomas eucariotas no resulta sorprendente, puesto que uno debe esperar encontrar más genes en organismos que son más complejos. Esta aparente paradoja se resolvió por el descubrimiento de que los genomas de la mayoría de las células eucariotas contienen no solo genes funcionales sino también grandes cantidades de secuencias de ADN que no codifican proteínas. La diferencia de tamaño entre los genomas de la salamandra y del hombre refleja grandes cantidades de ADN no codificante, en lugar de más genes. La presencia de grandes cantidades de secuencias no codificantes es una propiedad universal de los genomas de los eucariotas complejos. Intrones y exones En términos moleculares, un gen puede definirse como un segmento de ADN que se expresa para dar un producto funcional, que puede ser un ARN (p. ej. ribosómico y de transferencia) o un polipéptido. Algunos ADN no codificantes en eucariotas representan largas secuencias de ADN que residen entre genes (secuencias espaciadoras). Sin embargo, también se encuentran grandes cantidades de ADN no codificante dentro de la mayoría de los genes eucariotas. Tales genes presentan una estructura dividida en la que los segmentos de secuencia codificante (llamados exones) están separados por secuencias no codificantes (intrones). El gen completo se transcribe para producir una molécula larga de ARN en la que los intrones se han retirado mediante splicing (empalme y pega), por lo que sólo los exones se encuentran incluidos en el ARN mensajero (ARNm). Aunque la mayoría de los intrones no tienen una función conocida, representan una parte sustancial de ADN en los genomas de los eucariotas superiores. La estructura intrón-exón de muchos genes eucariotas es complicada, siendo la cantidad de ADN en las secuencias de los intrones con frecuencia más grande que la de los exones. La secuencia del genoma humano indica que un gen humano promedio contiene aproximadamente 9 exones, interrumpidos por 8 intrones y distribuidos a lo largo de aproximadamente 30,000 pares de bases (30 kilobases o kb) de ADN genómico. Generalmente los exones suman alrededor de 2 kb, de modo que más del 90% de un gen humano promedio consiste de intrones. Además, no se encuentran intrones en la mayoría de los genes de los eucariotas simples, como las levaduras. Por otra parte, los intrones están presentes en raros genes procariotas. La presencia o ausencia de intrones no es por tanto una distinción absoluta entre los genes procariotas y eucariotas, aunque los intrones prevalezcan en los eucariotas superiores (plantas y animales). La mayoría de los intrones no especifican la síntesis de un producto celular, aunque algunos si codifican ARNs o proteínas funcionales. Sin embargo, los intrones juegan papeles importantes en el control de la expresión génica. Por ejemplo, la presencia de intrones permite que los exones de un gen se unan en distintas combinaciones, resultando en la síntesis de distintas proteínas a

Transcript of 04.ORGANIZACIÓN Y SECUENCIACIÓN DE LOS GENOMAS CELULARES

ORGANIZACIÓN Y SECUENCIACIÓN DE LOS GENOMAS CELULARES Como material genético, el ADN proporciona un patrón que dirige todas las actividades celulares y determina el plan de desarrollo de los organismos multicelulares. Por lo tanto, entender la estructura genética y su función resulta fundamental para obtener una visión de la biología molecular de las células. Los genomas de la mayoría de los eucariotas son grandes y más complejos que los de procariotas. El gran tamaño de los genomas eucariotas no resulta sorprendente, puesto que uno debe esperar encontrar más genes en organismos que son más complejos. Esta aparente paradoja se resolvió por el descubrimiento de que los genomas de la mayoría de las células eucariotas contienen no solo genes funcionales sino también grandes cantidades de secuencias de ADN que no codifican proteínas. La diferencia de tamaño entre los genomas de la salamandra y del hombre refleja grandes cantidades de ADN no codificante, en lugar de más genes. La presencia de grandes cantidades de secuencias no codificantes es una propiedad universal de los genomas de los eucariotas complejos. Intrones y exones En términos moleculares, un gen puede definirse como un segmento de ADN que se expresa para dar un producto funcional, que puede ser un ARN (p. ej. ribosómico y de transferencia) o un polipéptido. Algunos ADN no codificantes en eucariotas representan largas secuencias de ADN que residen entre genes (secuencias espaciadoras). Sin embargo, también se encuentran grandes cantidades de ADN no codificante dentro de la mayoría de los genes eucariotas. Tales genes presentan una estructura dividida en la que los segmentos de secuencia codificante (llamados exones) están separados por secuencias no codificantes (intrones). El gen completo se transcribe para producir una molécula larga de ARN en la que los intrones se han retirado mediante splicing (empalme y pega), por lo que sólo los exones se encuentran incluidos en el ARN mensajero (ARNm). Aunque la mayoría de los intrones no tienen una función conocida, representan una parte sustancial de ADN en los genomas de los eucariotas superiores. La estructura intrón-exón de muchos genes eucariotas es complicada, siendo la cantidad de ADN en las secuencias de los intrones con frecuencia más grande que la de los exones. La secuencia del genoma humano indica que un gen humano promedio contiene aproximadamente 9 exones, interrumpidos por 8 intrones y distribuidos a lo largo de aproximadamente 30,000 pares de bases (30 kilobases o kb) de ADN genómico. Generalmente los exones suman alrededor de 2 kb, de modo que más del 90% de un gen humano promedio consiste de intrones. Además, no se encuentran intrones en la mayoría de los genes de los eucariotas simples, como las levaduras. Por otra parte, los intrones están presentes en raros genes procariotas. La presencia o ausencia de intrones no es por tanto una distinción absoluta entre los genes procariotas y eucariotas, aunque los intrones prevalezcan en los eucariotas superiores (plantas y animales). La mayoría de los intrones no especifican la síntesis de un producto celular, aunque algunos si codifican ARNs o proteínas funcionales. Sin embargo, los intrones juegan papeles importantes en el control de la expresión génica. Por ejemplo, la presencia de intrones permite que los exones de un gen se unan en distintas combinaciones, resultando en la síntesis de distintas proteínas a

partir del mismo gen. Este proceso, denominado procesamiento alternativo o splicing alternativo, ocurre con frecuencia en los genes de eucariotas complejos, y se cree muy importante para la extensión del repertorio funcional de los 30,000 – 40,000 genes del genoma humano. Además se cree que los intrones han jugado un papel importante en la evolución, facilitando la recombinación entre regiones codificantes de proteína (exones) de distintos genes, un proceso conocido como arrastre de exones. Los exones con frecuencia codifican dominios de proteínas funcionales, de modo que la recombinación entre intrones de diferentes genes da lugar a nuevos genes con nuevas combinaciones de secuencias codificantes de proteínas. Tal y como se predijo en la hipótesis, los estudios de secuenciación del ADN han demostrado que algunos genes son quimeras de exones derivados de otros genes, y proporcionan evidencia directa de que se pueden formar nuevos genes mediante la recombinación de secuencias de intrones. Secuencias de ADN repetitivas Los intrones forman una contribución sustancial al gran tamaño de los genomas de eucariotas superiores. En humanos, por ejemplo, los intrones forman aproximadamente el 25% del ADN genómico total. Sin embargo, una porción incluso mayor del genoma de los eucariotas complejos consiste en secuencias altamente repetidas de ADN no codificante. Un mayor análisis, culminando en la secuenciación de genomas completos, ha identificado varios tipos de estas secuencias altamente repetidas. Una clase (denominada repeticiones de secuencias sencillas) consiste en repeticiones en tándem de hasta miles de copias de secuencias cortas, que varían desde 1 hasta 500 nucleótidos. Ya que estas secuencias repetidas de ADN bandean como “satélites” separados de la banda principal de ADN, a menudo se denominan ADNs satélite. Estas secuencias están repetidas millones de veces por genoma, constituyendo aproximadamente el 10% del ADN, de la mayoría de los eucariotas superiores. Los ADN de secuencia sencilla no se transcriben y no proporcionan información genética funcional. Algunos, sin embargo, representan papeles importantes en la estructura cromosómica. Otras secuencias repetitivas de ADN se encuentran dispersas a través del genoma en lugar de agrupadas en repeticiones en tándem. Estos elementos repetitivos dispersos son un contribuyente muy importante para el tamaño del genoma, constituyendo aproximadamente el 45% del ADN genómico humano. Las dos clases más predominantes de estas secuencias se denominan SINEs (short interspersed elements). Los SINEs poseen una longitud de 100 a 300 pares de bases. Unas 1.5 millones de estas secuencias se encuentran dispersas a través del genoma, constituyendo aproximadamente un 13% del ADN humano total. Aunque los SINEs se transcriben a ARN, no codifican proteínas y su función es desconocida. Los principales LINEs (long interspersed elements) humanos poseen una longitud de 6-8 kb, aunque muchas de las secuencias repetidas derivadas de LINEs son más cortas, con un tamaño aproximado de 1 kb. Existen aproximadamente 850,000 repeticiones de secuencias LINEs en el genoma, constituyendo el 21% del ADN humano. Los LINEs se transcriben y al menos algunos de ellos codifican para proteínas, pero al igual que los SINEs, no poseen una función conocida en la fisiología celular. Tanto las secuencias SINEs como LINEs son ejemplos de elementos transponibles, que son capaces de moverse a puntos distintos en el ADN genómico.

Una tercera clase de secuencias repetitivas dispersas, que se asemejan fuertemente a los retrovirus se denominan elementos semejantes a retrovirus, también se mueven dentro del genoma por transcripción inversa. Los elementos semejantes a retrovirus humanos varían desde aproximadamente 2-10 kb de longitud. Existen aproximadamente 450,000 elementos semejantes a retrovirus en el genoma humano, lo que constituye aproximadamente un 8% de ADN humano. Por el contrario, la cuarta clase de elementos repetitivos dispersos (transposones de ADN) se mueven por el genoma siendo copiados y reinsertados como secuencias de ADN, en lugar de moverse mediante transcripción inversa. En el genoma humano existen unas 300,000 copias de transposones de ADN, variando de 80 a 3,000 pares de bases de longitud y constituyendo aproximadamente un 3% del ADN humano. Así, prácticamente la mitad del genoma humano consiste en elementos repetitivos dispersos que se han replicado y movido a través del genoma a través de intermediarios de ARN o ADN. Merece la pena notar que la gran mayoría de estos elementos se transponen a través de intermediarios de ARN, de modo que la transcripción inversa ha sido responsable de la generación de más del 40% del genoma humano. Algunas de estas secuencias pueden ayudar en la regulación de la expresión génica, pero la mayoría de las secuencias repetitivas dispersas no parecen hacer una contribución útil a la célula. Por el contrario, parecen representar los elementos de ADN egoístas que han sido seleccionados por su propia capacidad de replicación dentro del genoma, en lugar de proporcionar una ventaja selectiva a su huésped. En algunos casos, sin embargo, los elementos transponibles han jugado un papel evolutivo importante, estimulando los reordenamientos genéticos y contribuyendo a la generación de la diversidad genética. Duplicación génica y pseudogenes Otro de los factores que favorecen al gran tamaño de los genomas eucariotas es que algunos genes están presentes en múltiples copias, algunas de las cuales frecuentemente son afuncionales. En algunos casos, múltiples copias de genes son necesarias para producir ARNs o proteínas requeridas en grandes cantidades, como los ARNs ribosómicos o las histonas. En otros casos, miembros concretos de un grupo de genes relacionados (denominado una familia génica) pueden ser transcritos en diferentes tejidos o en diferentes etapas del desarrollo. Las familias de genes se cree que han surgido de la duplicación de un gen ancestral original, divergiendo los diferentes miembros de una familia como consecuencia de mutaciones durante la evolución. Tal divergencia puede desembocar en la evolución de proteínas relacionadas capaces de funcionar en tejidos diferentes o en distintas etapas del desarrollo. Como cabría esperar, sin embargo, no todas las mutaciones favorecen la función del gen. Algunas copias genéticas presentan mutaciones sustanciales que ocasionan la pérdida de la capacidad para producir un producto genético funcional. Composición del genoma en los eucariotas superiores Una vez vistos los diferentes tipos de ADN no codificante que contribuyen a la complejidad genómica de los eucariotas superiores, es de interés revisar la composición de los genomas celulares. En los genomas bacterianos, la mayor parte del ADN codifica proteínas. Por ejemplo, el genoma de E. coli es aproximadamente de unas 4.6 x 106 pares de bases de longitud y contiene unos 4,000

genes, donde casi un 90% del ADN son secuenciales codificantes para proteínas. El genoma de las levaduras, consiste de 12 x 106 pares de bases, posee un tamaño 2.5 veces el de E. coli, pero sique siendo extremadamente compacto. Sólo el 4% de los genes de Saccharomyces cerevisiae contienen intrones y, normalmente, éstos sólo poseen un pequeño intrón cerca del comienzo de la secuencia codificante. Aproximadamente un 70% del genoma de levaduras se emplea en secuencias codificantes de proteínas, especificando un total de aproximadamente 6,000 proteínas. Los genomas animales relativamente sencillos de C. elegans y Drosophila son unas 10 veces más grandes que el genoma de levaduras, pero contienen sólo 2-3 veces más genes. Por el contrario, estos genomas animales sencillos contienen más intrones y más secuencias repetitivas, de modo que las secuencias codificantes de proteínas corresponden sólo al 25% del genoma de C. elegans y un 13% del genoma de Drosophila. Sin embargo, una gran sorpresa obtenida al descifrar la secuencia del genoma humano, fue el descubrimiento de que el genoma humano sólo contiene aproximadamente de 30,000 a 40,000 genes, justo el doble de número de genes presente en el genoma de C. elegans o Drosophila. Parece que sólo del 1 – 1.5% del genoma humano consiste de secuencias codificantes. Aproximadamente el 25% del genoma consiste en intrones y más del 60% está compuesto por varios tipos de secuencias de ADN repetitivo y duplicado, donde el resto está compuesto por pseudogenes, secuencias espaciadoras no repetitivas entre genes y secuencias de exones que están presentes en los extremos 5’ y 3’ de los ARNm pero que no se traducen en proteínas. El aumento del tamaño de los genomas de los eucariotas superiores, por lo tanto, se debe mucho más a la presencia de grandes cantidades de secuencias repetitivas e intrones que al incremento en el número de genes. CROMOSOMAS Y CROMATINA Los genomas de los procariotas están contenidos en cromosomas únicos, que normalmente son moléculas de ADN circulares. Por el contrario, los genomas de los eucariotas están compuestos por múltiples cromosomas, cada uno de los cuales contiene una molécula de ADN linear. Aunque el número y el tamaño de los cromosomas varían considerablemente entre las especies, su estructura básica es la misma en todos los eucariotas. El ADN de las células eucariotas está fuertemente unido a unas proteínas básicas pequeñas (histonas) que empaquetan el ADN de manera ordenada en el núcleo de la célula. Esta característica resulta primordial y se presenta en el ADN de la mayoría de los eucariotas. Por ejemplo, la longitud total extendida del ADN en una célula humana es de unos 2 metros, pero este ADN debe caber en un núcleo con un diámetro de tan solo de 5 - 10 µm. Cromatina El acomplejamiento entre el ADN eucariótico y las proteínas histonas forman la cromatina, que contiene alrededor del doble de proteína que de ADN. Las proteínas principales en la cromatina son las histonas, pequeñas proteínas que contienen una gran proporción de aminoácidos básicos (arginina y lisina) que facilitan la unión con la molécula de ADN cargada negativamente. Existen cinco tipos importantes de histonas; H1, H2A, H2B, H3 y H4, que resultan muy similares entre las diferentes especies eucariotas. Las histonas son tremendamente abundantes en las células eucariotas; su masa total resulta aproximadamente igual al ADN de la célula. Además, la cromatina contiene aproximadamente una masa igual de una variedad de proteínas cromosómicas diferentes a las histonas. Existen más de un millar de tipos diferentes de estas proteínas, que están

implicadas en múltiples actividades, incluyendo la replicación del ADN y la expresión génica. De acuerdo con esta idea, la microscopia electrónica reveló que las fibras de cromatina tienen una apariencia de collar de cuentas, con las cuentas separadas a intervalos de unas 200 pares de bases. Una digestión extensa de la cromatina con la nucleasa micrococal producía partículas (llamadas partículas centrales o cores del nucleosoma) que correspondían a las cuentas visibles por microscopia electrónica. Un análisis detallado de estas partículas demostró que contienen 146 pares de bases de ADN enrolladas 1.65 veces alrededor del centro de histonas formado por dos moléculas de H2A, H2B, H3 y H4 (las histonas del centro). Una molécula de la quinta histona, H1, se encuentra unida al ADN cuando entra en una partícula central o core del nucleosoma. Esto forma una subunidad de cromatina llamada cromatosoma, que está compuesto por 166 pares de bases de ADN envuelto alrededor del centro de histonas y sujeto en su lugar por H1 (una histona de enlace). El empaquetamiento del ADN con histonas produce una fibra de cromatina de aproximadamente de 10nm de diámetro y compuesta por cromatosomas separados por segmentos de enlace o linker de ADN de unas 80 pares de bases de longitud. En el microscopio electrónico, esta fibra de 10nm presenta la apariencia de un ”collar de cuentas” que sugiere el modelo del nucleosoma. Empaquetar el ADN en una fibra de cromatina de 10nm reduce su longitud aproximadamente seis veces. La cromatina se puede condensar aún más enrollándola en fibras de 30nm, estructura que aún no se ha conseguido determinar. Las interacciones con las histonas H1 parece ser que desempeñan un papel importante en esta etapa de la condensación de la cromatina. En células en interfase (sin dividirse), la mayoría de la cromatina (llamada eucromatina) se encuentra relativamente sin condensar y distribuida por todo el núcleo. Durante este periodo del ciclo celular, los genes se transcriben y el ADN se replica como preparación para la división. La mayoría de la eucromatina en los núcleos en interfase parece presentarse en forma de fibras de 30nm, organizadas en grandes lazos que contienen aproximadamente de 50 - 100 kb de ADN. Alrededor del 10% de la eucromatina, que contiene los genes que son transcritos activamente, se encuentra en un estado menos condensado (formación en 10nm) lo que permite la transcripción. Al contrario de la eucromatina, alrededor del 10% de la cromatina de la interfase (llamada heterocromatina) se encuentra en un estado muy condensado que recuerda a la cromatina de las células que llevan a cabo la mitosis. La heterocromatina es transcripcionalmente inactiva y contiene secuencias de ADN altamente repetitivas, como aquellas presentes en los centrómeros y telómeros. Cuando la célula entra en mitosis, sus cromosomas se condensan para poder ser distribuidos a las células hijas. Los lazos de fibras de cromatina de 30nm se cree que se doblan sobre sí mismos para formar los cromosomas compactos de la metafase de las células mitóticas, en las que el ADN se ha condensado cerca de 10,000 veces. Esta cromatina condensada no puede ser utilizada como molde para la síntesis de ARN, así que la transcripción cesa durante la mitosis. Las micrografías electrónicas indican que el ADN en los cromosomas de la metafase está organizado en grandes lazos unidos a un andamio o escalón de proteínas, aunque todavía no se ha llegado a entender con detalle la estructura de la cromatina condensada ni el mecanismo de condensación.

Los cromosomas de la metafase se encuentran en un estado de concentración muy alto, tanto que su morfología puede ser estudiada a través del microscopio óptico. Centrómeros El centrómero es una región especializa del cromosoma cuyo papel es asegurar la correcta distribución de los cromosomas duplicados a las células hijas durante la mitosis. El ADN celular se duplica durante la interfase, resultando la formación de dos copias de cada cromosoma antes de que comience la mitosis. Cuando la célula entra en mitosis, la condensación de la cromatina conduce a la formación de los cromosomas de la metafase que consisten en dos cromátidas hermanas idénticas. Estas cromátidas hermanas se mantienen unidas por el centrómero, el cual se considera como una región cromosómica compacta. Una vez iniciada la mitosis, los microtúbulos del huso mitótico se adhieren al centrómero y las dos cromátidas hermanas se separan y se dirigen a los polos opuestos del huso. Al final de la mitosis, las membranas nucleares se restablecen y los cromosomas se descondensan, resultando en la formación de los núcleos de las células hermanas que contienen una copia de cada cromosoma parental. Los centrómeros, por tanto, sirven como sitios de asociación de las cromátidas hermanas y como sitios de unión para los microtúbulos del huso mitótico. Son secuencias específicas de ADN a las que se unen numerosas proteínas de unión asociadas a los centrómeros, formando una estructura llamada cinetocoro. La unión de los microtúbulos a las proteínas del cinetocoro dirige la unión de los cromosomas al huso mitótico. Telómeros Las secuencias situadas en los extremos de los cromosomas en eucariotas, son llamados telómeros, desempeñan un papel crítico en la replicación y el mantenimiento del cromosoma. Los telómeros inicialmente se reconocieron como estructuras distintas ya que los cromosomas rotos eran altamente inestables en las células eucariotas, implicando la necesidad de secuencias específicas en las terminaciones cromosómicas normales. Las secuencias de ADN de los telómeros de los eucariotas son similares, presentando repeticiones de una secuencia simple de ADN que contiene grupos de residuos G en una hebra. Por ejemplo, la secuencia de las repeticiones de los telómeros en humanos y en otros mamíferos es AGGGTT. Estas secuencias se repiten cientos o miles de veces, por lo que se extienden varias kilobases. Las secuencias repetidas del ADN telomérico forman bucles al final de los cromosomas además de unir un cierto número de proteínas que protegen los extremos del cromosoma de la degradación. Los telómeros desempeñan un papel importante en la replicación de los extremos de las moléculas del ADN lineal. La ADN polimerasa es capaz de extender una cadena de ADN en crecimiento pero no puede iniciar la síntesis de una nueva cadena al final de una molécula lineal de ADN. Como consecuencia, los extremos de los cromosomas lineales no pueden ser replicados por la ADN polimerasa en condiciones normales. Este problema se ha solucionado mediante la evolución de un mecanismo especial, que implica la actividad de la transcriptasa inversa, con el fin de replicar las secuencias de ADN telomérico. El mantenimiento de los telómeros parece ser un factor importante a la hora de determinar las expectativas de vida y la capacidad reproductiva

de las células, por lo que los estudios de los telómeros y de la telomerasa son prometedores al respecto de nuevos datos sobre cuestiones como el envejecimiento y el cáncer. SECUENCIAS DE LOS GENOMAS COMPLETOS Algunos de los esfuerzos más excitantes en la biología molecular son los dirigidos actualmente hacia la obtención y análisis de las secuencias completas de nucleótidos del genoma humano y de los genomas de diversos modelos de organismos, incluyendo a E. coli, Saccharomyces cerevisiae, Caenorhabditis elegans, Drosophila, Arabidopsis y el ratón. Los resultados de la secuenciación de genomas completos nos han llevado más allá de la caracterización de genes individuales hasta una visión global de la organización y contenido génico de genomas completos. En principio, este enfoque posee el potencial de identificar a todos los genes de un organismo, que por tanto, se volverán accesibles a investigaciones sobre su estructura y función. Sin embargo, aprender cómo interpretar una cantidad tan inmensa de datos generados por la secuenciación de genomas completos supone nuevos retos, y ha dado lugar a una nueva área de estudio denominada bioinformática, que se encuentra en el interfaz entre la biología y la informática y está enfocada hacia el desarrollo de los métodos computacionales necesarios para analizar y obtener información biológica útil, a partir de la secuencia de miles de millones de bases que componen un genoma tan grande como el humano. El genoma de Drosophila melanogaster Las ventajas de Drosophila para el análisis genético incluyen su genoma relativamente simple y el hecho de que puede ser mantenida y criada en el laboratorio. Además, Drosophila aporta un instrumento especial para el análisis genético en los cromosomas politénicos gigantes que se encuentran en algunos tejidos como las glándulas salivales de la larva. Los cromosomas se forman en las células que no se dividen como consecuencia de la replicación repetitiva de las hebras de ADN que no se pueden separar. Por tanto, cada cromosoma politénico contiene cientos de moléculas de ADN idénticas alienadas en paralelo. Debido a su tamaño, estos cromosomas politénicos son visibles al microscopio óptico y con técnicas de tinción apropiadas se puede distinguir un patrón de bandas. El bandeo de los cromosomas politénicos proporciona un mayor grado de resolución que el obtenido por los cromosomas de metafase. La complejidad de los organismos multicelulares no está simplemente relacionada con un mayor número de genes. Parte del incremento en la complejidad biológica de Drosophila y C. elegans puede deberse al hecho de que sus proteínas son en general más grandes y contienen más dominios funcionales que las proteínas de levaduras.