PROTEÒMICA I INFORMÀTICA

PROTEÒMICA I

INFORMÀTICA Eines informàtiques en la

identificació de microorganismes simples a través de la comparació

del proteoma

CONTINGUTS: ·Tècniques d’anàlisi de proteïnes·Assimilació del proteoma a una seqüència gràfica·Traducció d’una seqüencia gràfica a una sèrienumèrica·Comparació de sèries numèriques com a medid’identificació de microorganismes simples·Algorisme de comparació de sèries numèriques

Iu-Aran Fernàndez i PeruchoTreball de recercaB2KBarcelona, Desembre 2014Tutora: Fina Bruil

Agraïments Vull agrair per la seva ajuda en el treball al meu pare Pere-Enric i a la meva mare Marta.

Al Dr. Joan Izquierdo per invitar-me al seu laboratori on té un espectròmetre de masses, eina fonamental per al meu treball.

A la meva tutora del treball Fina Bruil, per controlar-me el treball i dedicar el seu temps en supervisar-me.

Resum En aquest treball s’estudien els camps de la proteòmica i la informàtica amb l’objectiu

de crear un software capaç d’identificar mostres orgàniques a partir de la seva

empremta peptídica. Per a provar el funcionament del software, es necessari un sensor

de so construït amb una màquina Arduino que sigui capaç d’imitar un espectròmetre de

masses per a fer un espectre de masses i poder identificar-lo i comparar-lo amb el

software programat.

Resumen En este trabajo se estudian los campos de la proteòmica i la informática con el objetivo

de crear un software capaz de identificar muestras orgánicas a partir de su huella

peptídica. Para probar el correcto funcionamiento del software, es necesario un sensor

de sonido construido con una maquina Arduino que sea capaz de imitar a un

espectrómetro de masa para hacer una huella peptídica para poderlo identificar i

compararlo con el software creado.

Abstract In this work proteomics and informatics will be studies to develop a software capable of

identifying organic samples from its Peptide mass fingerprinting. To test the software, a

sound sensor made with an Arduino board will be needed in order to imitate a mass

spectrometer capable of making a Peptide mass fingerprinting to identify it and compare

it with the developed software.

Index

1.Introducció ........................................................................................................................ 1

2.Hipòtesi ............................................................................................................................. 2

3.Objectius ........................................................................................................................... 3

4.Marc teòric ........................................................................................................................ 4 4.1.Proteòmica ................................................................................................................. 4 4.1.1.El proteoma ................................................................................................ 4 4.2.Informàtica ................................................................................................................. 5

4.2.1.Algorismes .................................................................................................. 5 4.2.2.Llenguatges de programació ...................................................................... 6 4.2.3.Software ..................................................................................................... 7 4.2.4.Eines estadístiques ...................................................................................... 7

5.Materials i mètodes ......................................................................................................... 10 5.1.Espectròmetre de masses…………………………………………………………………………………… 10 5.1.1.Resultat de l’anàlisi de l’Espectròmetre de Masses (EM)..........................15 5.2.Placa Arduino............................................................................................................19 5.3.Aplicació informàtica. Protein Identifier...................................................................22

6.Documentació tècnica P.I. ............................................................................................... 24

7.Resultats .......................................................................................................................... 40

8.Conclusions ..................................................................................................................... 45

9.Annexos ........................................................................................................................... 46 Annex I. Cronologia ........................................................................................................ 46 Annex II. Proteïnes ......................................................................................................... 48

Les proteïnes ...................................................................................................... 48 Classificació de les proteïnes ............................................................................. 51 Estructura de les proteïnes ................................................................................ 54 Propietats de les proteïnes ................................................................................ 57

El genoma .......................................................................................................... 59 Mecanisme de traducció del genoma i síntesi de proteïnes..............................60 Annex III. Màquina Arduino............................................................................................ 61 Annex IV. Glossari. .......................................................................................................... 62

10.Bibliografia .................................................................................................................... 65

1.Introducció

Des de sempre la biologia i la tecnologia són temes que m’han agradat, i aquest treball

suposava investigar a fons sobre algun tema que m’agradés, per això he triat combinar

aquests dos camps per assolir un objectiu.

En aquest treball he buscat utilitzar la biologia i les eines que em proporciona la

informàtica per a poder desenvolupar un software capaç d’identificar microorganismes

simples utilitzant un espectròmetre de masses.

La biologia i la informàtica son dos camps que ja fa anys s’han complementat l’un a l’altre

i han permès grans avenços. Jo he volgut combinar-los per tal de poder arribar a

l’objectiu que és identificar un microorganisme.

Per assolir tal objectiu, utilitzaré un espectròmetre de masses per a obtenir un espectre

de masses de diverses mostres orgàniques.

Amb programes com Access, programaré un software capaç d’analitzar, identificar i

comparar els resultats de l’espectròmetre amb una base de dades, amb la qual podrem

identificar la mostra orgànica analitzada amb l’espectròmetre.

També, al no poder utilitzar l’espectròmetre en les fases inicials de programació del

software, construiré un sensor amb un màquina Arduino per a poder simular l’anàlisi de

resultats que porta a terme l’espectròmetre.

En el treball primer explicaré els coneixements bàsics sobre proteòmica per a fer el

treball, juntament amb els coneixements d’informàtica aplicats al desenvolupament del

software.

Descriuré i explicaré el funcionament dels materials i els mètodes utilitzats en el treball

tals com l’espectròmetre, la màquina Arduino o diversos processos informàtics.

Un cop programat el software, avaluaré el seu funcionament analitzant una sèrie de

mostres i les compararé entre si per tal de saber si el funcionament és correcte o no.

1

2.Hipòtesi

Volem identificar un microorganisme a partir de la seva empremta peptídica mitjançant

un algorisme/ programa informàtic.

Utilitzant un espectròmetre de masses, podem obtenir l’empremta peptídica d’un

microorganisme. Per tal de saber de quin microorganisme es tracta, hem d’utilitzar un

algorisme informàtic que identifiqui l’empremta peptídica en una base de dades.

2

3.Objectius

-Entendre el funcionament d’un espectròmetre de masses per tal d’obtenir un espectre

de masses.

-Comprendre i analitzar un espectre de masses.

-Construir un sensor que simuli un espectròmetre de masses per a provar el software

durant les primeres fases de desenvolupament.

-Desenvolupar un software capaç de tractar les dades d’un espectre de masses i

comparar-lo amb una base de dades. Que sigui capaç també, d’identificar la molècula a

la qual correspon l’espectre de masses analitzat.

3

4.Marc teòric

4.1.Proteòmica

La proteòmica és l'estudi de tot el conjunt de proteïnes expressades d’un genoma

(proteoma). Les tècniques de la proteòmica aborden l’estudi d’aquest conjunt de

proteïnes. En la primera dimensió les proteïnes se separen per isoelectroenfocament,

que separa les proteïnes amb base en la seva càrrega elèctrica. En la segona dimensió,

les proteïnes se separen per pes molecular utilitzant SDS-PAGE. El gel es tenyeix en blau

de Coomassie o Nitrat de plata per a visualitzar les proteïnes; les taques al gel són les

proteïnes que han migrat a una localització específica i permet d'aquesta manera

identificar-les (veure figura 5).

4.1.1.El proteoma

Figura 1. Electroforesi en dues dimensions.

El proteoma cel·lular és la totalitat de proteïnes expressades en una cèl·lula particular

sota condicions de medi ambient i etapa de desenvolupament (o cicle cel·lular)

específiques, com ho pot ser l'exposició a estimulació hormonal. El terme proteoma es

va utilitzar per primera vegada el 1995 i ha estat aplicat a diferents escales en els 4

sistemes biològics. També es pot parlar del proteoma complet d'un organisme, que pot

ser conceptualitzat com les proteïnes de totes les varietats de proteomes cel·lulars. És

aproximadament, l'equivalent “proteínic” del genoma.

4.2.Informàtica

4.2.1.Algorismes

Un algorisme és un conjunt prescrit d’instruccions i regles perfectament definides,

ordenades i finites que permet realitzar qualsevol activitat mitjançant passes

successives que no poden generar incerteses.

El terme va ser encunyat pel matemàtic, astrònom i geògraf musulmà Al-Juarismi.

Els algorismes poden ser utilitzats per a càlcul, processament de dades, raonament

automatitzat...

Començant amb un estat inicial, quan l’algorisme s’executa porta a terme un conjunt

d’instruccions finites condicionades per la “entrada” i la “sortida” que volem assolir,

desembocant a un estat final que pot ésser, per exemple, el resultat d’una operació.

Tot i la naturalesa procedimental dels algorismes, alguns algorismes (coneguts com a

“Randomized Algorithms”) fan ús de l’aleatorietat en la seva lògica.

Les persones utilitzen els algorismes durant el dia a dia en accions tan simples com posar

una rentadora, fer el dinar o tocar música.

En aquest apartat es distingeix entre la història de la paraula que denota el procés i la

història de la ciència que estudia l'aplicació d'algorismes i els requeriments d'aquests.

És evident que la repetició de tasques amb un mateix procés és practicada per tot tipus

de sistemes vivents i que ja es coneixien alguns algorismes com per exemple el

d'Euclides, pertanyents a l'àmbit de les matemàtiques, abans de designar-los com a tals.

El coneixement de l'aplicabilitat de tècniques repetitives a l'hora de resoldre problemes

matemàtics prové de l'antiga Babilònia on es troben escrits on es proposen algorismes i

on també es feien servir taules de càlcul per resoldre problemes.

Altres exemples de l'antiguitat es troben a l'algorisme d'Euclides per calcular el màxim

comú divisor de dos enters positius pertanyen a l'àmbit de les matemàtiques. Cal

5

http://ca.wikipedia.org/wiki/Babil%C3%B2nia

http://ca.wikipedia.org/wiki/Algorisme_d%27Euclides

http://ca.wikipedia.org/wiki/Euclides

http://ca.wikipedia.org/wiki/Matem%C3%A0tiques

destacar també, el treball d'Euclides al camp de la geometria, que fou un referent per al

desenvolupament formal de l'Algorísmica. Un exemple d'aplicació dels algorismes és el

problema que consisteix a trobar el màxim d'un conjunt de nombres.

4.2.2.Llenguatges de programació

Un llenguatge de programació és un llenguatge informàtic utilitzat per controlar el

comportament d'una màquina, normalment un ordinador. Cada llenguatge té una sèrie

de regles sintàctiques i semàntiques estrictes que cal seguir per escriure un programa

informàtic, i que en descriuen l'estructura i el significat respectivament. Aquestes regles

permeten especificar tant la classe de dades amb què treballarà el programa com les

accions que realitzarà. Mentre que alguns llenguatges es defineixen per una

especificació formal (un document), altres són definits oficiosament per una

implementació concreta (un compilador).

El llenguatge utilitzat en la part pràctica d’aquest treball es el Visual Basic for

Applications (VBA). El Visual Basic for Applications és un llenguatge de

programació desenvolupat per Alan Cooper per a Microsoft. Aquest llenguatge és un

dialecte del BASIC, amb importants afegits. La seva primera versió va ser presentada

el 1991 amb la intenció de simplificar la programació utilitzant un ambient de

desenvolupament completament gràfic que facilités la creació d'interfícies gràfiques i

en certa mesura també la programació en ella mateixa. La seva sintaxi, derivada de

l'antic llenguatge BASIC, ha sigut ampliada amb el temps en afegir-s'hi les

característiques típiques dels llenguatges estructurats moderns. S'hi ha afegit una

implementació limitada de la Programació Orientada a Objectes (els mateixos formularis

i controls són objectes), encara que s'admet el polimorfisme mitjançant l'ús de les

interfícies, no admet l'herència. No requereix el maneig de punters i consta d'un maneig

molt senzill de cadenes de caràcters. Disposa de diverses biblioteques per a gestió de

bases de dades, podent connectar amb qualsevol base de dades d'ODBC(Open DataBase

Connectivity:Informix, DBase, Access, MySQL, SQL Server, PostgreSQL ,etc...) i a través

d'ADO (ActiveX Data Objects).

6

4.2.3.Software

Microsoft Access és un programa de gestió de bases de dades relacional creat

per Microsoft per a ús personal i de petites empreses. Forma part del paquet Microsoft

Office. Per treballar en una base de dades cal, en primer lloc, carregar el programa i,

després definir la base de dades o utilitzar-ne una de construïda anteriorment.

Microsoft Excel és un full de càlcul. Un full de càlcul és un programa informàtic que

permet manipular dades numèriques i alfanumèriques disposades en forma de taules.

Normalment és possible realitzar càlculs complexos amb fórmules i funcions, i a partir

d'aquestes dibuixar tot tipus de gràfics.

4.2.4.Eines estadístiques

Per a l’anàlisi i tractament de les dades necessitem diverses eines estadístiques que

utilitzarà el software:

Recta de regressió

En la regressió lineal o ajust lineal és un mètode estadístic que modelitza la relació entre

una variable dependent I, les variables independents X i i un terme aleatori ε. Aquest

model es pot expressar com:

on és la intersecció o terme "constant", les (i> 0) són els paràmetres respectius a

cada variable independent, i és el nombre de paràmetres independents que cal tenir

en compte en la regressió

En medicina i biologia ja s’utilitza aquest mètode des de fa molt temps. Les primeres

proves relacionant la mortalitat amb el fumar tabac van venir d'estudis que utilitzaven

la regressió lineal. Els investigadors inclouen una gran quantitat de variables en la seva

anàlisi de regressió en un esforç per eliminar factors que puguin produir correlacions

espúries. En el cas del tabaquisme, els investigadors van incloure l'estat socioeconòmic

per assegurar que els efectes de mortalitat per tabaquisme no siguin un efecte de la

seva educació o posició econòmica. No obstant, és impossible incloure totes les

variables possibles en un estudi de regressió. En l'exemple del tabaquisme,

un hipotètic gen podria augmentar la mortalitat i augmentar la propensió a adquirir 7

malalties relacionades amb el consum de tabac. Per aquesta raó, en l'actualitat

les proves controlades aleatòries són considerades molt més fiables que les anàlisis de

regressió.

Correlació lineal

En probabilitat i estadística, la correlació indica la força i la direcció d'una relació lineal i

proporcionalitat entre dues variables estadístiques. Es considera que dues variables

quantitatives estan correlacionades quan els valors d'una d'elles varien sistemàticament

pel que fa als valors homònims de l'altra: si tenim dues variables (A i B) hi ha correlació

si en augmentar els valors de A fan també els de B i viceversa. La correlació entre dues

variables no implica, per si mateixa, cap relació de causalitat.

Distribució khi quadrat

En estadística, la distribució khi quadrat (pronunciat [xi] o [ki]), també anomenada khi

quadrat de Pearson, (χ2) és una distribució de probabilitat contínua amb un

paràmetre k que representa els graus de llibertat de la variable aleatòria:

X= Z21+...+Z2n

on Zk són variables independents de distribució normal, de mitjana 0 i variància 1.

Sèries temporals

Una sèrie temporal o cronològica és una seqüència de dades, observacions o valors,

mesurats en determinats moments del temps, ordenats cronològicament i,

normalment, espaiats entre si de manera uniforme. L' anàlisi de sèries

temporals comprèn mètodes que ajuden a interpretar aquest tipus de dades, extraient

informació representativa, tant referent als orígens o relacions subjacents com a la

possibilitat de extrapolar i predir el seu comportament futur.

De fet un dels usos més habituals de les sèries de dades temporals és la seva anàlisi per

predicció i pronòstic. Per exemple de les dades climàtiques, de les accions de borsa, o

les sèries pluviomètriques. Resulta difícil imaginar una branca de les ciències en què no

apareguin dades que puguin ser considerades com a sèries temporals.

Al cas que ocupa aquest treball la utilització de sèries temporals no és adient, ja que les

seqüències de valors d’una anàlisi d’EM no és repetitiva ni predictible. Però sí que

8

resulten molt útils algunes eines matemàtiques relacionades amb les sèries numèriques,

com ara les eines de normalització de les dades.

Normalització de dades

Ens podem trobar amb que les dades d’una sèrie siguin heterogenis, o les escales siguin

diferents, o que estiguin desigualment espaiades.

Aquest darrer cas es pot solucionar emprant l’anomenat filtre de Kalman (Harvey, 1990)

per a analitzar sèries de dades que presentin irregularitats. En aquest cas no ha estat

utilitzat aquest filtre.

Existeixen diferents tipus de normalització de dades per a sèries amb escales diferents.

Per exemple, cal esmentar (Sánchez & Fedriani) :

𝑋𝑋′𝑖𝑖 =𝑋𝑋𝑖𝑖

𝑀𝑀𝑀𝑀𝑀𝑀(𝑋𝑋𝑖𝑖)

𝑋𝑋′𝑖𝑖 =𝑋𝑋𝑖𝑖 − 𝑀𝑀𝑖𝑖𝑀𝑀(𝑋𝑋𝑖𝑖)

𝑀𝑀𝑀𝑀𝑀𝑀(𝑋𝑋𝑖𝑖) −𝑀𝑀𝑖𝑖𝑀𝑀(𝑋𝑋𝑖𝑖)


∑ 𝑋𝑋𝑖𝑖𝑛𝑛𝑖𝑖=1


�∑ 𝑋𝑋𝑖𝑖𝑛𝑛𝑖𝑖=1

El segon procediment és una linealització amb ordenada a l’origen. Els altres tres són

linealitzacions pures. Es va triar el segon procediment per a raons de homogeneïtzació

de les dades; totes les dades llegides d’aquesta manera estan compreses en el rang de

0 a 1.

9

5.Materials i mètodes

5.1Espectròmetre de masses

L'espectròmetre de masses és un instrument que mesura les masses i les concentracions

relatives (m/z) d'àtoms i molècules. Utilitza el fonament bàsic de la força magnètica

sobre una partícula carregada en moviment. Si una càrrega entra en un camp magnètic

movent-se en direcció perpendicular al camp, seguirà una trajectòria circular. La força

magnètica, que és perpendicular a la velocitat, proporciona la força centrípeta.

El selector de velocitat s'utilitza amb l'espectròmetre de masses per seleccionar només

les partícules carregades amb una velocitat específica per a l'anàlisi. Es basa en una

disposició o geometria de camps on les forçes elèctriques i les forces magnètiques

oposades l'una a l'altra, coincideixin en valor per a una determinada velocitat de

partícula. D'aquesta manera només quedaran sense desviar les partícules amb una

velocitat seleccionada.

Els Espectròmetres de Masses són detectors sensibles d'isòtops basats en les seves

masses. També s'utilitzen en la datació per Carboni i altres processos de datació

radioactiva. La combinació d'un espectròmetre de masses i un cromatògraf de gasos,

constitueixen una poderosa eina per a la detecció de traces de contaminants o toxines.

Una sèrie de satèl·lits i coets espacials, porten espectròmetres de masses per a la

identificació de petites quantitats de partícules interceptades en l'espai. Un exemple del

seu ús es per l’anàlisi del vent solar.

En un espectròmetre de masses, s'utilitzen camps magnètics per a atreure ions positius.

El seu funcionament es divideix en les diferents cambres que té:

Vaporització: El primer que es necessita és vaporitzar la mostra. Per a la vaporitzar la

mostra es mescla una dissolució aquosa de la mostra amb un excés d'una substància que

absorbeix radiació. La dissolució resultant s'evapora a la superfície d'una sonda

metàl·lica que s'utilitza per la introducció de la mostra. La mescla sòlida, llavors, s'exposa

al feix d'un làser polsant, que provocarà la sublimació de la mostra, que passarà cap a la

cambra d ‘ionització.

10

Figura 2. Espectròmetre de masses.

Ionització: Quan la mostra passa a la cambra d ‘ionització, un filament de metall escalfat

elèctricament emet electrons que queden atrapats en una "trampa d'electrons", que es

tracta d'una placa carregada positivament. Aquests electrons bombardegen la mostra, i

els xocs ocasionats tenen l'energia suficient per ionitzar les molècules de la mostra. La

gran majoria de les molècules tindran una càrrega de +1, per la dificultat que comporta

treure electrons de capes més properes al nucli. Amb una altra placa carregada

positivament, els ions positius es repelen i son enviats a una altra cambra.

La reacció que es porta a terme es representa: M + e → à M + + 2e −

11

Figura 3. Fase d’acceleració d’ions. Les dues primeres plaques carregades atorguen energia cinètica als ions.

Acceleració: La cambra d'acceleració, atorga la mateixa energia cinètica a tots els ions.

Quan tots els ions tenen la mateixa energia cinètica, són llavors transportats cap a un

tub molt fi on els ions poden interaccionar amb camps magnètics. El potencial aplicat ve

determinat per la fórmula: v = [2eV/m] ½. On V és el potencial aplicat, e és la càrrega

de l'electró i m la massa.

12

Figura 4. Fase d’acceleració d’ions. Les dues primeres plaques carregades atorguen energia cinètica als ions.

Desviació: Al aplicar un camp magnètic sobre els ions, aquests descriuen una trajectòria

circular amb radi "r" descrit en la

operació: r = (2Vm/H2e) ½. El tub per

on es transporten els electrons, fa un gir.

Al aplicar un camp magnètic als ions de la

mostra, podem fer que un ió en concret

desviï la seva trajectòria per a passar pel

tub sense col·lisionar amb les parets. Així,

sabent el valor del camp magnètic,

només uns ions amb una relació

càrrega/massa específica podrà arribar al

detector degut a la desviació del tub.

Variant la intensitat del camp magnètic

(entre 500i 8000 gauss), podem fer que el ions, depenent de la seva relació

massa/càrrega, arribin en ordre per tal de mesurar l'abundància relativa de cada

molècula en la mostra.

Figura 5. L’electroimant desvia els ions creant una camp electromagnètic. El ions B són massa lleugers i no els afecta el camp. Els ions A són massa pesants i els afecta massa el camp. Els ions C tenen la relació m/z ideal per passar pel tub sense xocar amb les parets.

13

Anàlisi: Un cop obtinguda la mostra, obtindrem un espectre de masses en que es mostra

l'abundància relativa de cada relació massa/càrrega, la qual es diferent en cada

molècula.

Figura 6. Esquema general del procés d’espectrometria de masses.

Figura 7. Interior d’un espectròmetre de masses. La part visible correspon a la cambra d ’ionització i la d’acceleració.

14

5.1.1.Resultat de l’anàlisi de l’Espectròmetre de Masses (EM)

El resultats d’una anàlisi per espectrometria de masses és un conjunt de dades

numèriques que indiquen, per a una banda, la relació massa/càrrega (m/z), i que es

representa a abcises (eix X), i per l’altre la intensitat de la mesura, que es representa a

ordenades (eix Y). Aquestes col·leccions de dades s’acostumen a representar en forma

gràfica.

En el cas de substàncies simples les gràfiques són relativament senzilles. Per exemple,

una substància com ara el ciclopropà presenta una gràfica com aquesta:

Figura 8. Espectre de masses del ciclopropà.

0

20

40

60

80

100

120

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96

Inte

nsity

Ciclopropà

15

Pel diòxid de carboni, la seva gràfica és:

Figura 9. Espectre de masses del diòxid de carboni.

Quan es parla de proteïnes, tant el procès analític, com les gràfiques resultants, són més

complexes.

Les anàlisis d’espectrometria de masses en proteïnes necessiten un preprocés que

faciliti la divisió de les proteïnes, en especial les de gran mida, en pèptids més petits, per

a evitar un efecte d’emmascarament per solapament de pics.

Aquesta divisió es fa tractant les proteïnes amb tripsina per a tallar els enllaços en llocs

coneguts. D’aquesta manera, s’assegura que els talls produeixin sempre els mateixos

pèptids. Existeix el risc de que alguns talls no es produeixin, pel que el risc d’error no és

menyspreable, però en general els resultats són molt més acurats que amb proteïnes

sense tractar.

Els resultats de l’anàlisi d’EM dona com a resultats gràfiques més complexes que les

anteriors.

0

20

40

60

80

100

120

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96

Inte

nsity

Diòxid de carboni

16

A continuació es mostren dos exemples:

Figura 10. Empremta peptídica obtinguda amb un espectròmetre de masses.

Figura 11. Empremta peptídica obtinguda amb un espectròmetre de masses.

Ambdós exemples corresponen a l’anàlisi d’una proteïna tractada amb tripsina i dividida

en pèptids més petits que es poden identificar pels pics d’intensitat.

17

Figura 12. Espectre de masses d’una proteïna.

A la pràctica, en la comparació de gràfiques, només es comparen els valors dels pics, ja

que, a la teoria, la resta de valors haurien de ser 0.

A l’aplicació construïda aqui, i debut a la naturalesa de les dades que s’han utilitzat com

a simulació d’un EM, s’han considerat totes les dades de l’espectre de la gràfica.

020406080

100120

113

126

139

152

165

178

191

110

4111

7113

0114

3115

6116

9118

2119

5120

8122

1123

4124

7126

0127

3128

6129

9131

2132

5133

8135

1136

4137

7139

01

Inte

nsity

Proteïna

18

5.2.Placa Arduino

Amb l’objectiu de simular un espectròmetre de masses, i debut a la impossibilitat de

disposar-ne d’un per a la realització de les mesures, es va decidir realitzar les proves de

coincidència de dues formes diferents: a) emprar un dispositiu que pogués proporcionar

un registre de dades similar al generat a l’EM, i b) aconseguir fitxers de dades reals de

resultats d’anàlisis a l’EM i comparar-los.

A la opció de generar col·leccions de dades pròpies amb un dispositiu que pogués

simular un EM, es va triar una màquina Arduino, que és una família de

microcontroladors basats en plaques de circuits impresos, i controlats per un codi obert

basat en l’estàndard Wiring (veure annex III). Amb aquest dispositiu, el disseny de

circuits electrònics amb microcontroladors és molt més simple i, sobre tot, molt més

econòmic que amb microcontroladors convencionals.

La màquina emprada va ser un Arduino Uno, amb els sensors inclosos al Starter Kit,

complementats amb un joc addicional de 37 sensors i un lector de targes SD.

De cara a simular la lectura d’un EM, es va construir una estructura amb la placa Arduino

Uno i un sensor que havia de registrar els valors d’un esdeveniment. Aquest

esdeveniment havia de tenir la següent característica: els valors recollits, i que

s’enviaven a la finestra Serial Port, havien de tenir una certa “repetibilitat”, és a dir,

qualsevol esdeveniment repetit diverses vegades havia de produir una col·lecció de

dades comparable. Només d’aquesta manera la sèrie numèrica llegida per la màquina i

registrada a la finestra Serial Port podia emmagatzemar-se en forma de fitxer i era capaç

de simular el resultat d’una anàlisi de proteïnes en un EM: s’esperava que els pics debuts

a valors alts en l’esdeveniment registrat pel sensor fossin equivalents als pics dels valors

m/z de les proteïnes presents a una mostra a una anàlisi realitzada a l’EM.

Finalment, es va decidir utilitzar un sensor de volum de so, i els esdeveniments a

registrar pistes d’àudio. El sensor de volum registra el volum del so que es produeix al

seu voltant, i el transforma a un valor numèric. L’objectiu era crear registres molt

similars per a esdeveniments molt similars. Es va programar la màquina Arduino per a

que el sensor registrés a intervals de 50 milisegons el volum d’una determinada cançó.

Era important una normalització de les dades de manera que: a) es comencés a registrar

dades sempre en el mateix moment per a afavorir la comparabilitat de les dades

19

numèriques, i b) el volum es transformés sempre en un valor dins d’un rang determinat,

on el valor mínim (absència de so), fos 0.

És important explicar aquí els efectes de la digitalització d’un paràmetre analògic i la

seva relació amb una probable asincronia de les dades.

La digitalització és el procés mitjançant el qual es transforma un senyal analògic, és a dir,

el que pot prendre qualsevol valor dins un rang continu i pot ser generada per una funció

matemàtica continua, en un senyal digital, és a dir, aquell que només pren un conjunt

de valors discrets. La finalitat és facilitar el procesament de la informació continguda en

el senyal. Consisteix bàsicament en realitzar, de forma periòdica, mesures de l’amplitud

d’un senyal analògic. Aquesta transformació depèn, entre altres factors, del rellotge o

senyal de sincronització. Contra més gran sigui la freqüència del rellotge, més acurada

serà la transformació.

Un efecte perniciós d’una freqüència baixa pot ser que l’inici d’un pols a la digitalització

no coincideixi exactament en dues mesures en teoria idèntiques, ja que els valors

analògics poden prendre qualsevol valor real, mentre que les mesures digitals només

poden prendre determinats valors discrets.

Figura 13. Conversió analògica-digital.

Donat que la freqüencia del rellotge a la digitalització de dades va ser de 1/50 ms, és

relativament fàcil que es produís una asincronia entre dues mostres corresponents al

mateix registre de so.

20

Es va determinar que la finestra Serial Port comencés a gravar els registres del sensor en

el moment que detectés un valor per a sobre d’un llindar mínim, o soroll de fons. Per tal

de determinar aquest soroll de fons, es varen realitzar uns registres en silenci, i els valors

emmagatzemats a la finestra Serial Port es van analitzar numèricament. Es va

determinar que el valor mínim dels valors registrats era el soroll de fons, i es va establir

com a valor 0 del llindar inferior.

Era molt important que el sensor registrés exclusivament el so de la cançó que sonava,

cap so ambiental addicional, pel qual la placa Arduino, així com el dispositiu d’emissió

de so, un altaveu, estiguessin acústicament aïllats.

Figura 14. Arduino amb sensor de so.

Altre valor important era el nombre de resultats de cada sèrie. Es va decidir que aquest

nombre seria determinat i limitat en l’aplicació informàtica que analitzaria

posteriorment les dades. Com que els registres es realitzaven cada 50 milisegons, i es

varen realitzar lectures cada 2 minuts, el nombre total de dades a registrar era, en teoria,

de 2.400. A la pràctica, i debut a algunes dades que no varen ser correctament

21

registrades, es va prendre com a valor màxim de dades el nombre de dades de la mostra

que va rebre menys resultats, que va ser de 2.391.

5.3Aplicació informàtica. Protein Identifier (P.I.)

Un cop realitzades les mesures a la màquina Arduino, les lectures es mostraven, com

abans s’ha dit, a una finestra de l’aplicació Arduino anomenada Serial Port, que

correspon a les dades que els sensors analògics recullen, i que, un cop digitalitzats, es

mostren en forma numèrica.

Aquestes dades es varen recollir en un fitxer Excel inicial per a fer la primera

normalització. Tal i com s’ha explicat a dalt, les dades en brut eren primer sotmeses a la

normalització:



a un full del fitxer Excel. Les dades eren transformades amb la fórmula Excel:

=(B2-MIN($B$2:$B$2392))/(MAX($B$2:$B$2392)-MIN($B$2:$B$2392))

per a totes les cel·les de les columnes de dades del full.

El següent pas era identificar manualment els punts d’inici de cada col·lecció de dades

per a evitar la asincronia de les mostres.

Seguidament, s’exportaven les dades a un fitxer de text amb separació per tabulador

entre les columnes X i Y, i se li donava un nom que identifiqués cada fragment de so.

Aquests fitxers són els que eren analitzats a l’aplicació Protein Identifier (P.I.). Aquesta

aplicació és capaç de llegir un fitxer de text creat amb el mètode anterior, comparar-ho

amb tots els fitxers de la base de dades de l’aplicació, emetre un resultat en funció del

nivell de detecció definit a la taula Paràmetres, Aquest resultat pot ser Identificació

realitzada o Identificació no realitzada. En cas de que la identificació no sigui positiva, hi

ha la possibilitat d’emmagatzemar la mostra per a futures comparacions.

22

L’algorisme de comparació està basat en la comparació de dos conjunt de dades pel

coeficient de correlació lineal. Les dades a comparar, en principi han de mostrar una

relació lineal al ser de naturalesa idèntica.

L’aplicació va ser realitzada en anglès per a motius d’exportabilitat, donat el cas.

A la documentació tècnica adjunta a continuació s’explica cada part del programa.

23

6.Documentació tècnica P.I.

Documentació tècnica aplicació PI (Protein Identifier)

Taules

Nom Camps Atributs Explicació

SAMPLES Id Autonumèric

PrimaryKey

Clau primària de l’Access

SampleID Numèric (Enter llarg) Identificació de la mostra

X Numèric (Enter llarg) Valor consecutiu de l’1 al 60 (paràmetre del

sistema). Correspon a l’eix X

Y Numèric (Simple) Valor de la lectura de la mostra. Correspon

a l’eix Y

SAMPLENAMES Id Autonumèric

PrimaryKey



SampleDescription Text Descripció de la mostra

OwnerID Numèric (Enter llarg) Identificació de l’usuari

SavingDate Data/Hora Data de gravació de la mostra

SAMPLECOMPARISONS Id Autonumèric

PrimaryKey


SampleID1 Numèric (Enter llarg) Identificació de la mostra 1


MatchingRate Numèric (Simple) Taxa de correspondència entre mostres.

Veure text treball

MatchDate Data/Hora Data de realització del test

PARAMETERS Id Autonumèric

PrimaryKey


MinMatchingRate Numèric (Simple) Valor mínim per a considerar que la

correspondència entre mostres és positiva

MaxSampleNumber Numèric (Enter llarg) Nombre màxim de valors per a cada mostra

(aquí s’ha fixat a 60)

OWNERS Id Autonumèric

PrimaryKey


OwnerId Numèric (Enter llarg) Identificació numèrica de l’usuari

OwnerUser Text Identificació alfanumèrica de l’usuari

OwnerPassword Text Password encriptat de l’usuari

SAMPLELOADED Id Autonumèric

PrimaryKey





24


a l’eix Y

LoadingDate Data/Hora Data de la lectura de la mostra

SAMPLESTEMP

(Taula temporal equivalent a

SAMPLES)

Id Autonumèric

PrimaryKey






a l’eix Y

SAMPLECOMPARISONSTEMP

(Taula temporal equivalent a

SAMPLECOMPARISONS)

Id Autonumèric

PrimaryKey




MatchingRate Numèric (Simple) Taxa de correspondència entre mostres.

Veure text treball

MatchDate Data/Hora Data de realització del test

SAMPLESTEMP2 Id Autonumèric

PrimaryKey






a l’eix Y

Consultes

Nom consulta Consulta el llenguatge SQL Explicació

sqlSampleNames SELECT SampleID, SampleDescription,

[SavingDate]

FROM SampleNames

ORDER BY SampleID;

Selecciona els camps Identificació de

mostra, Descripció de mostra i Data de

gravació de la Taula SAMPLENAMES, i ho

ordena pel camp Identificació de mostra

sqlSampleComparisons SELECT SampleID1, SampleID2, MatchingRate,

MatchDate

FROM SampleComparisons

ORDER BY MatchingRate DESC;

Selecciona els camps Identificació de

mostra 1, Identificació de mostra 2, Taxa

de correspondència i Data de

correspondència de la Taula

SAMPLECOMPARISONS, i ho ordena pel

camp Taxa de correspondència en ordre

Descendent

sqlSampleLoaded SELECT X, [Y]

FROM SampleLoaded;

Selecciona els camps X i Y de la Taula

SAMPLELOADED

25

sqlSampleComparisonsTemp SELECT * FROM SampleComparisonsTemp

ORDER BY MatchingRate DESC;

Selecciona TOTS els camps de la Taula

SAMPLECOMPARISONSTEMP, i ho ordena

pel camp MatchingRate en ordre

Descendent

Formularis

frmParameters

Formulari per a introduir els paràmetres generals del sistema

Els paràmetres s’expliquen a la Taula Parameters

OwnerInquiry

Formulari per a introduir la identificació d’un usuari. Sol·licita el Nom de l’usuari i el seu Password,

aquest en format encriptat

StartUp

Formulari que fa les vegades de Menu d’opcions de l’aplicació.

Existeixen tres opcions principals:

- Llegir una mostra externa a partir d’un fitxer de text

26

- Mostrar els resultats de la comparació d’aquesta mostra amb tots els perfils presents a la

base de dades. Des d’aquesta opció existiran altres opcions derivades de la comparació, com

ara la de gravar la mostra com un nou perfil a la base de dades

- Editar els valor de la Taula de paràmetres de l’aplicació

Sortir de l’aplicació

frmSampleDisplay

Formulari per a mostrar el perfil amb més probabilitat de correspondre a la mostra llegida. Si no hi ha

cap mostra la taxa de correspondencia de la qual sigui superior al paràmetre del sistema

MinMatchingRate, dona com a resultat el missatge NO MATCHING RESULTS. En cas contrari, el resulta

tés MATCHING RESULTS FOUND, i mostra la gràfica de la mostra en lectura, així com la mostra amb la

taxa de correspondencia més alta, per a facilitar la comparació visual. També mostra una taula amb les

taxes de correspondencia entre totes les mostres comparades, per a que l’usuari pugui veure si hi ha

més d’una mostra que pot correspondre a la mostra en lectura.

27

ReadExternalSample

Formulari per a visualitzar les dades i la gràfica de la mostra llegida des d’un fitxer de text en el format

“X;Y”, on X correspon als valors d’abcises (consecutius de l’1 al 60) i Y als valors de les lectures en

ordenades, separats per un punt i coma (;).

Els valors de X, en el cas d’una anàlisi del proteoma d’un microorganisme per espectrometria de masses,

correspondria al valor de m/z (massa/càrrega), i el valor de Y, a l’abundància de cada molècula.

SampleComparison

ResultOK

Formulari per a mostrar els resultats de la comparació d’una mostra llegida des d’un fitxer de text i

corresponent a una medició, amb totes les mostres registrades a la base de dades.

S’indiquen els valors estadístics de la mostra llegida, així com els de les mostres registrades a la base de

dades, conforme es va produint la comparació. També es mostra la gràfica de cadascuna de les mostres

presents a la base de dades per a una millor identificació visual.

28

Al final, a la part dreta del formulari, s’indica la mostra amb la probabilitat més alta de correspondre a la

mostra en lectura, sempre i quan la seva taxa de correspondència sigui més alta que el valor mínim

indicat a la Taula Parameters, camp MinMatchingRate.

També és possible gravar la mostra en lectura a la base de dades, com a un “perfil” més per a futures

comparacions.

Macros

CloseOwnerInquiry Tanca el formulari d’identificació d’usuari

frmOwnerInquiry

frmSampleDisplay Tanca el formulari frmSampleDisplay

ReadExternalSample Obre el formulari

SampleComparisonResultsOK

SampleComparisonResultsOK Tanca el formulari


StartUp Obre el formulari frmParameters

StartUp_OpenForm_CompareSamples Obre el formulari


29

Codi del mòdul Module1

Declaracions generals

Option Compare Database

Global tUser As String ‘ Nom de l’usuari

Global tUserID As String ‘ Identificació de l’usuari

Global tSampleID As Integer ‘ Identificació de la mostra

Global tSampleDescription As String ‘ Descripció de la mostra

Global tMinMR As Double ‘ Paràmetre “MinMatchingRate”

Global tMaxSN As Long ‘ Paràmetre “MaxSampleNumber”

Formulari frmSampleDisplay

Private Sub Cuadro_combinado5_Click() ‘ Executable al fer click al ComboBox on

Dim dbProt As Database ‘ es sol·licita la identificació de la

Dim rsSCT As Recordset ‘ mostra a estudiar

Set dbProt = CurrentDb

dbProt.Execute ("DELETE * FROM SampleComparisonsTemp")

dbProt.Execute ("INSERT INTO SampleComparisonsTemp

(SampleID1,SampleID2,MatchingRate,MatchDate) SELECT

SampleID1,SampleID2,MatchingRate,MatchDate FROM SampleComparisons WHERE SampleID1=" &

Cuadro_combinado5.Value & " OR SampleID2=" & Cuadro_combinado5.Value) & " ORDER BY

MatchingRate DESC"

Secundario3.Requery

DoEvents

Set rsSCT = dbProt.OpenRecordset("SampleComparisonsTemp")

If Not rsSCT.EOF Then

rsSCT.MoveFirst

If rsSCT("MatchingRate") > tMinMR Then

Texto7 = "************ MATCHING RESULTS FOUND ************"

If Cuadro_combinado5.Value = rsSCT("SampleID1") Then

Texto11 = rsSCT("SampleID2")

Else

Texto11 = rsSCT("SampleID1")

End If

dbProt.Execute ("DELETE * FROM SamplesTemp")

dbProt.Execute ("INSERT INTO SamplesTemp (SampleID,X,Y) SELECT SampleID,X,Y

FROM Samples WHERE SampleID=" & Cuadro_combinado5.Value)

Gráfico14.Requery

Etiqueta16.Caption = "Requested Sample : " & Cuadro_combinado5.Value

dbProt.Execute ("DELETE * FROM SamplesTemp2")

dbProt.Execute ("INSERT INTO SamplesTemp2 (SampleID,X,Y) SELECT SampleID,X,Y

FROM Samples WHERE SampleID=" & Texto11)

Gráfico15.Requery

Etiqueta17.Caption = "Matching Sample: " & Texto11

DoEvents

Else

Texto7 = "************ NO MATCHING RESULTS ************"

Texto11 = ""

30

Etiqueta16.Caption = ""

Etiqueta17.Caption = ""


Gráfico14.Requery

dbProt.Execute ("DELETE * FROM SamplesTemp2")

Gráfico15.Requery

DoEvents

End If

End If

End Sub

Formulari OwnerInquiry

Private Sub Comando0_Click() ‘ Executable al fer click al botó “Cancel”

btnCancel = True

End Sub

Private Sub Comando1_Click() ‘ Executable al fer click al botó “OK”

Dim dbOwner As Database

Dim rsOwner As Recordset

Dim iOwnerID As Long

Dim tOwnerPW As String

Dim iOK As Integer

If OwnerID = "" Or IsNull(OwnerID) Then Exit Sub

Set dbOwner = CurrentDb

Set rsOwner = dbOwner.OpenRecordset("SELECT * FROM Owners WHERE OwnerID=" & OwnerID)

If Not rsOwner.EOF Then

If OwnerPassword = rsOwner("OwnerPassword") Then

tUser = rsOwner("OwnerUser")

tUserID = rsOwner("OwnerID")

rsOwner.Close

dbOwner.Close

DoCmd.Close

DoCmd.OpenForm "StartUp"

Else

iOK = MsgBox("Wrong password for the user " & OwnerUser & ". Try again",

vbOKOnly, "Wrong Password")

OwnerPassword.SetFocus

End If

End If

End Sub

Private Sub Form_Load() ‘ Executable al carregar el formulari

Dim dbOwner As Database

Dim rsOwner As Recordset

Dim iOK As Integer

btnCancel = False

OwnerID.SetFocus

31

Set dbOwner = CurrentDb

Set rsOwner = dbOwner.OpenRecordset("SELECT * FROM Owners")

rsOwner.MoveLast

If rsOwner.RecordCount = 0 Then

iOK = MsgBox("No active users defined", vbOKOnly, "No users")

Unload Form_OwnerInquiry

End If

rsOwner.Close

End Sub

Private Sub OwnerID_LostFocus() ‘ Executable al perdre el Focus el formulari

Dim dbOwner2 As Database

Dim rsOwner2 As Recordset

Dim iOK As Integer

If OwnerID <> "" Then

Set dbOwner2 = CurrentDb

Set rsOwner2 = dbOwner2.OpenRecordset("SELECT * FROM Owners WHERE OwnerID=" &

OwnerID)

If rsOwner2.EOF Then

iOK = MsgBox("User not defined", vbOKOnly, "User not defined")

OwnerID.SetFocus

Else

OwnerUser = rsOwner2("OwnerUser")

End If

rsOwner2.Close

dbOwner2.Close

End If

End Sub

Formulari ReadExternalSample

Private Sub Comando13_Click() ‘ Executable al fer click al botó “Load File”

Dim iErr As Integer

Dim iErrOK As Boolean

Dim dbSL_RES As Database

Dim iCont As Integer

tSampleID = Texto3

tSampleDescription = Texto6

On Error GoTo errMsg

Set dbSL_RES = CurrentDb

dbSL_RES.Execute ("DELETE * FROM SampleLoaded")

Secundario14.Requery

iErrOK = False

If ctlFileSelector1.Path = "" Then Exit Sub

If Texto3 = "" Or IsNull(Texto3) Then

iErrOK = True

32

iErr = MsgBox("Sample ID is empty." & Chr(10) & "Please, enter a right value",

vbOKOnly, "Sample ID empty")

Exit Sub

Else

If Texto6 = "" Or IsNull(Texto6) Then

iErrOK = True

iErr = MsgBox("Sample description is empty." & Chr(10) & "Please, enter a

right text", vbOKOnly, "Sample description empty")

Exit Sub

End If

End If

iCont = 0

Open ctlFileSelector1.Path For Input As #1

While Not EOF(1)

iCont = iCont + 1

Line Input #1, strlinea

strcamp1 = Mid(strlinea, 1, 2)

strcamp2 = Mid(strlinea, 4, 3)

If iCont <= tMaxSN Then

CurrentDb.Execute ("INSERT INTO [SampleLoaded](SampleID,X,Y,LoadingDate)

VALUES ('" & Texto3 & "','" & strcamp1 & "','" & strcamp2 & "',#" & Format(Date,

"dd/mm/yyyy") & "#)")

End If

Wend

Close #1


Gráfico25.Requery

Exit Sub

errMsg:

If Err.Number = 53 Then

iErr = MsgBox("Error: File not found", vbOKOnly, "File not found")

Else

iErr = MsgBox("Error: " & Err.Number & "(" & Err.Description & ")", vbOKOnly, "Error

" & Err.Number)

End If

End Sub



Dim rsSL_RES As Recordset

Dim strlinea As String

Dim strcamp1 As String



Texto0 = tUser


dbSL_RES.Execute ("DELETE * FROM SampleLoaded")


33

End Sub

Formulari SampleComparisonResultsOK

Private Sub Comando12_Click() ‘ Executable al fer click al botó “Init Comparison”

Dim IDSerie1, IDSerie2 As Long

Dim SumaSerie As Double

Dim dbProt As Database

Dim rsSerie1 As Recordset

Dim rsSerie2 As Recordset

Dim rsSerieSQL As Recordset

Dim rsSerieName As Recordset

Dim i As Integer

Dim n As Integer

Dim MitjanaX As Double

Dim m As Integer

Dim MitjanaY As Double

Dim OK As Integer

Dim SD_X As Double

Dim SD_Y As Double

Dim tX, tY As Double

Dim COV_XY As Double

Dim CC As Double

Dim MinMR As Double

Dim sResultText As String

Etiqueta7.Visible = True

' Initialize lists

i = 1

j = Lista13.ListCount

If j > 1 Then

Do

Lista13.RemoveItem 0


i = i + 1

Loop While i <= j

End If

Gráfico18.Requery

' Select to filter a single sample from Samples table


Set rsSerieName = dbProt.OpenRecordset("SELECT * FROM SampleNames")

If Not rsSerieName.EOF Then

rsSerieName.MoveFirst

While Not rsSerieName.EOF

IDSerie1 = rsSerieName("SampleID")

If Not IsNull(IDSerie1) Then

34

Set rsSerie1 = dbProt.OpenRecordset("SELECT * FROM Samples WHERE SampleID =

" & IDSerie1)

If Not rsSerie1.EOF Then


dbProt.Execute ("INSERT INTO SamplesTemp (SampleID,X,Y) SELECT

SampleID,X,Y FROM Samples WHERE SampleID=" & IDSerie1)

Gráfico19.Requery

Texto38 = tSampleID

DoEvents

rsSerie1.MoveFirst

SumaSerie = 0

n = 0

While Not rsSerie1.EOF

Texto2 = rsSerie1("SampleID")

Texto40 = rsSerie1("SampleID")

'Texto6 = ""

Lista13.AddItem rsSerie1![X]

Lista15.AddItem rsSerie1![Y]

SumaSerie = SumaSerie + rsSerie1![Y]

n = n + 1

MitjanaX = SumaSerie / n

rsSerie1.MoveNext

Wend

'rsSerie1.Close

Label21.Caption = MitjanaX

SumaSerie = 0

m = 0

Set rsSerie2 = dbProt.OpenRecordset("SELECT * FROM SampleLoaded")

If Not rsSerie2.EOF Then rsSerie2.MoveFirst


Texto0 = tSampleID 'rsSerie2("SampleID")

Texto4 = tSampleDescription ' rsSerie2("SampleDescription")

Lista13.AddItem rsSerie2![X]

Lista15.AddItem rsSerie2![Y]

SumaSerie = SumaSerie + rsSerie2![Y]

m = m + 1

rsSerie2.MoveNext

Wend

'rsSerie2.Close

MitjanaY = SumaSerie / m

Label23.Caption = MitjanaY

End If

End If

If Not rsSerieName.EOF Then

rsSerieName.MoveNext

If n <> m Then

OK = MsgBox("Error 1. Samples are not comparables. The number of

elements is different.", vbOKOnly, "Error 1")

Else

SumaSerie = 0

rsSerie1.MoveFirst

35


SumaSerie = SumaSerie + (rsSerie1![Y] - MitjanaX) ^ 2

rsSerie1.MoveNext

Wend

SD_X = Sqr(SumaSerie / n)

Label25.Caption = SD_X

SumaSerie = 0

rsSerie2.MoveFirst


SumaSerie = SumaSerie + (rsSerie2![Y] - MitjanaY) ^ 2

rsSerie2.MoveNext

Wend

SD_Y = Sqr(SumaSerie / m)

Label27.Caption = SD_Y

SumaSerie = 0

rsSerie1.MoveFirst

rsSerie2.MoveFirst

For i = 1 To n


tX = rsSerie1![Y] - MitjanaX

tY = rsSerie2![Y] - MitjanaY

SumaSerie = SumaSerie + tX * tY

rsSerie1.MoveNext

rsSerie2.MoveNext

End If

Next

COV_XY = SumaSerie / n

Label29.Caption = COV_XY

CC = COV_XY / (SD_X * SD_Y)

Label31.Caption = CC

End If

End If

rsSerie2.MoveFirst

If IDSerie1 <> rsSerie2("SampleID") Then

dbProt.Execute ("INSERT INTO SampleComparisons

(SampleID1,SampleID2,MatchingRate,MatchDate) VALUES (" & IDSerie1 & "," &

rsSerie2("SampleID") & "," & CC & ",#" & Format(Date, "dd/mm/yyyy") & "#)")

End If


Wend

End If

Etiqueta7.Visible = False

Etiqueta24.Caption = "Results of sample: " & tSampleID


dbProt.Execute ("INSERT INTO SampleComparisonsTemp

(SampleID1,SampleID2,MatchingRate,MatchDate) SELECT

SampleID1,SampleID2,MatchingRate,MatchDate FROM SampleComparisons WHERE SampleID1=" &

tSampleID & " OR SampleID2=" & tSampleID)


36

On Error GoTo Final:

rsSerie1.Close

Set rsSerie1 = dbProt.OpenRecordset("Parameters")

MinMR = rsSerie1("MinMatchingRate")

Lista35.Visible = False

While Lista35.ListCount > 0


Wend

rsSerie2.Close

Set rsSerie2 = dbProt.OpenRecordset("SELECT * FROM SampleComparisonsTemp ORDER BY

MatchingRate DESC")


rsSerie2.MoveFirst

sResultText = "********** NO MATCHING RESULTS ***********"


If rsSerie2("MatchingRate") > MinMR Then

sResultText = "********** MATCHING RESULTS FOUND **********"


Lista35.Visible = True

If rsSerie2("SampleID1") = tSampleID Then

Lista35.AddItem ("Sample Found: " & rsSerie2("SampleID2") & " with

Matching Rate: " & rsSerie2("MatchingRate"))


SampleID,X,Y FROM Samples WHERE SampleID=" & rsSerie2("SampleID2"))

Gráfico19.Requery

Texto40 = rsSerie2("SampleID2")

DoEvents

Else

Lista35.AddItem ("Sample Found: " & rsSerie2("SampleID1") & " with

Matching Rate: " & rsSerie2("MatchingRate"))


SampleID,X,Y FROM Samples WHERE SampleID=" & rsSerie2("SampleID1"))

Gráfico19.Requery

Texto40 = rsSerie2("SampleID1")

DoEvents

End If

End If

'rsSerie2.MoveNext

End If

Texto32 = sResultText

Else

Lista35.Visible = False

Texto32 = "********** NO MATCHING RESULTS ***********"

End If

Final:

End Sub

37

Private Sub Comando27_Click() ‘ Executable al fer click al botó “Save on DB”


Dim iErr As Integer

Etiqueta8.Visible = True


dbSL_RES.Execute ("INSERT INTO Samples (SampleID,X,Y) SELECT SampleID,X,Y FROM

SampleLoaded")

dbSL_RES.Execute ("INSERT INTO SampleNames (SampleID,SampleDescription, OwnerID,

SavingDate) VALUES ('" & tSampleID & "','" & tSampleDescription & "'," & tUserID & ",#"

& Format(Date, "dd/mm/yyyy") & "#)")

iErr = MsgBox("Import executed", vbOKOnly, "Executed")

Etiqueta8.Visible = False

End Sub

Private Sub Form_Activate() ‘ Executable a l’activar el formulari



Texto0 = tSampleID ' rsSerieID("SampleID")

Texto4 = tSampleDescription ' rsSerieID("SampleID")




DoEvents

End Sub

Private Sub Form_Load() ‘ Executable al carregar el formulari1



Texto0 = tSampleID ' rsSerieID("SampleID")

Texto4 = tSampleDescription ' rsSerieID("SampleID")




DoEvents

End Sub

Formulari StartUp

Private Sub Comando4_Click() ‘ Executable al fer click al botó “Exit App”

DoCmd.Close

End Sub

Private Sub Form_Activate() ‘ Executable a l’activar el formulari

Main

End Sub

1 Cal notar la diferencia entre “Carregar” un formulari, i “Activar” un formulari. La càrrega d’un formulari es fa habitualment una única vegada durant l’execució del codi. El fet de sortir del formulari no significa la seva descàrrega, llevat que ho diguem explícitament. L’activació del formulari s’engega cada cop que el formulari es mostra a pantalla un cop carregat. Per tant, la primera vegada durant l’execució que es mostra un formulari, s’executaran les dues subrutines, “Load” i “Activate”, mentre que la resta de vegades només s’executarà la subrutina “Activate”.

38

Private Sub Form_GotFocus() ‘ Executable al rebre el Focus el formulari

Main

End Sub


Main

End Sub

Sub Main() ‘ Subrutina Main. Es crida des de les subs anteriors

Dim dbSamples As Database

Dim rsSample1 As Recordset

Dim rsSample2 As Recordset

Dim rsParameters As Recordset

Dim dMinimalMatchingRate As Double

Set dbSamples = CurrentDb

Set rsSample1 = dbSamples.OpenRecordset("SELECT * FROM SampleNames")

If Not rsSample1.EOF Then

rsSample1.MoveLast

Texto23 = rsSample1.RecordCount

Else

Texto23 = "0"

End If

Set rsSample2 = dbSamples.OpenRecordset("SELECT * FROM SampleComparisons")


rsSample2.MoveLast


Else

Texto11 = 0

End If

rsSample2.Close

Set rsParameters = dbSamples.OpenRecordset("Parameters")

dMinimalMatchingRate = rsParameters("MinMatchingRate")

tMinMR = rsParameters("MinMatchingRate")

tMaxSN = rsParameters("MaxSampleNumber")

Set rsSample2 = dbSamples.OpenRecordset("SELECT * FROM SampleComparisons WHERE

MatchingRate>" & dMinimalMatchingRate)


rsSample2.MoveLast


Else

Texto9 = 0

End If

rsSample2.Close

rsSample1.Close

dbSamples.Close

End Sub

39

7.Resultats

S’han analitzat tres tipus de fitxers de resultats, els generats per la màquina Arduino, els

resultats de substàncies simples provinents d’anàlisis d’espectrometria de masses i els

resultats de proteïnes individuals també realitzats amb EM.

Resultats de la màquina Arduino

Els resultats de l’adquisició de dades de la màquina Arduino amb un sensor de so varen

resultar, al principi, poc acurades. Les sèries de dades obtingudes no eren prou

representatives dels sons registrats.

La raó d’aquesta manca de coincidència es va trobar en la baixa sensibilitat dels sensors

de so emprats.

Les dades es van registrar, al principi, en dos sensors diferents. Aquests tenien molt poca

sensibilitat, el que feia que grans diferències en el volum registrat provoquessin uns

valors molt propers. Això feia que les diferències entre els sons alts i baixos no fossin

prou significatius com per a poder relacionar espectres similars.

Per a solucionar-ho, es va emprar un sensor de so de més alta qualitat, el qual va oferir

uns registres molt més acurats gràcies a que l’amplitud de sensibilitat era molt més alta.

Un cop solucionat el problema de la manca de sensibilitat, es va detectar un altre efecte

que va haver de ser estudiat en profunditat: les dades sovint no eren comparables per

raons de manca de sincronisme entre elles: va resultar força difícil fer coincidir el principi

exacte d’una cançó amb d’altres.

Per a entendre aquest efecte cal recordar la naturalesa de les dades enregistrades.

Un so és un esdeveniment analògic, mentre que en ordinador emmagatzema valors

digitals, és a dir, numèrics. De fet, l’anàlisi posterior del resultats ha de ser numèrica,

d’aquí la necessitat de digitalitzar uns resultats analògics. Com s’ha explicat abans, la

digitalització és tan més acurada com més alta és la freqüència d’enregistrament. En el

cas d’aquest treball, per raons de capacitat de la mateixa màquina, la freqüència del

rellotge va ser de 1/50 ms.

40

Addicionalment, també es va comprovar que el valor base d’un fitxer de so, és a dir, la

línia basal corresponent al silenci, no sempre coincidia.

Com a exemple de mostra enregistrada amb la placa Arduino, veure la següent figura:

Figura 15. Mostra del sensor de so de la placa Arduino.

Per a aconseguir una més alta comparabilitat de les mostres, es decidir emprar una

normalització en dues fases:

- Identificació del punt exacte d’inici d’una cançó. El fet de comparar una sèrie de

dades amb una altra on el punt d’inici no fos coincident provocava que hi hagués

un desfasament entre les dades de dues lectures, que, a la llarga, no feia possible

la comparació. De forma manual, es va identificar el valor inicial de cada sèrie

per a poder truncar-la a partir d’aquest valor.

- Normalització de les dades per a garantir la seva homogeneïtat. Es va emprar,

com abans s’ha explicat, la fórmula:



Les dades varen ser transformades amb la fórmula Excel:

=(B2-MIN($B$2:$B$2392))/(MAX($B$2:$B$2392)-MIN($B$2:$B$2392))

on B era la columna on restaven les dades.

Aquesta transformació de variable ens va donar una col·lecció de dades entre 0 i 1, el

que feia que tots els enregistraments fossin comparables de manera més confiable.

Un cop fetes algunes comparacions, es va veure que les comparacions entre cançons

diferents tenien unes taxes de comparació molt properes a 0, mentre que algunes de les

41

mostres que corresponien a cançons ja presents a la base de dades, un cop

normalitzades, registraven unes taxes de comparació de fins a 0.76 sobre un màxim de

1.

Figura 16. Resultat d’una mostra identificada pel sistema.

Altre mostres, però, varen donar resultats significativament més baixos, pel que està

clar que les mostres amb taxes de comparació baixes corresponen a enregistraments

amb asincronia amb la mostra original.

Davant aquests resultats, sembla que la tècnica de comparació per a aquests tipus de

fitxers pot resultar adient sempre i quan el mètode d’enregistrament sigui prou acurat i

fet amb eines de qualitat.

42

Resultats amb substàncies simples analitzades amb EM

Un cop vist que les mostres enregistrades amb un sensor de so no eren les més adients

per a validar l’algorisme proposat, es va decidir aconseguir mostres analitzades realment

amb un espectròmetre de masses. Per a començar, es varen utilitzar substàncies simples

que tinguessin resultats gràfics molt senzills. Aquestes mostres es varen aconseguir de

diverses webs (veure punt 13 de la bibliografia), i inclouen substàncies com ara

Ciclopentà, Diòxid de carboni, Zinc, Zirconi, etc.

Aquestes mostres varen ser fàcilment identificades pel sistema al ser força simples.

Un exemple d’aquest tipus de mostra es pot trobar més a dalt, a la pàgina 16. El resultat

de les comparacions entre les mostres preidentificades i les mostres problema va ser de

taxes molt properes a 1, del voltant de 0,99.

Exemple de mostra identificada:

Figura 17. Resultat d’una substància simple identificada pel sistema.

Donats aquest resultats, sembla que l’algorisme d’identificació de l’aplicació P.I.

funcionava força be per a establir relacions de comparació entre mostres simples.

43

Resultats amb proteïnes analitzades amb EM

L’estudi de proteïnes mitjançant l’EM no és tan simple com ara el cas anterior. El seu

estudi requereix, com abans s’ha dit, de la fragmentació de les proteïnes amb tripsina

per a facilitar la identificació dels pèptids més petits.

Els resultats d’una de les anàlisis es mostra en la figura següent:

Figura 18. Resultat de la identificació d’una proteïna.

En aquest cas, el sistema indica que no existeix una mostra al sistema, tot i que

correspon a una proteïna idèntica a la emmagatzemada a la base de dades, ja que el

coeficient de correlació entre les mostres és inferior al nivell de tall definit a la

configuració de l’aplicació. Això s’estima que és debut a que alguns dels pèptids presents

a una mostra no ho estan a l’altre (cada pèptid està representat per un pic a una posició

concreta de l’eix d’abscisses, és a dir, a un relació m/z donada), i l’error comés fa que

calgui baixar el llindar a uns nivells de confiança més baixos. En aquest cas, es va decidir

baixar aquest llindar a un valor de 0,45.

Una de les conseqüències d’aquests resultats és que l’algorisme s’hauria de modificar

per a aconseguir una taxa de comparació més alta, incorporant-hi el fet de que alguns

pèptids poden no ser presents a una mostra però si a un altre.

44

8.Conclusions

-S’ha programat un software capaç d’identificar mostres orgàniques simples i proteïnes.

Tot i així, a l’hora d’identificar microorganismes, al haver de tallar-los amb tripsina, la

irregularitat d’aquests talls impedeix que diferents mostres siguin iguals (pot presentar

altres pics a demés dels importants), dificultant així les comparacions. En qualsevol cas,

sembla perfectament factible emprar aquests tipus d’algorismes matemàtics per a la

identificació d’organismes simples.

Un bacteri, per exemple, pot arribar a produir fins a 4000 proteïnes al llarg de la seva

vida. Afortunadament per a la seva identificació, no totes les produeix al mateix temps.

Això fa que, tot i la dificultat d’adaptació de l’algorisme proposat, pugui ser un punt de

partida per a crear un mètode d’identificació ràpid i fiable de microorganismes, de l’odre

d’alguns minuts, davant de temps d’entre dos i cinc dies, com és el cas ara mateix en els

laboratoris d’identificació microbians.

-La màquina Arduino, en un principi, i degut a la poca sensibilitat dels sensors de so, no

era capaç de fer espectres de masses amb una certa repetibilitat com per a poder

comparar-los. Després de provar un sensor amb millor sensibilitat, el problema era

normalitzar les dades, que es va poder aconseguir la fórmula mostrada als resultats.

-S’ha observat i explicat el procés que porta a terme l’espectròmetre de masses per a

fer una empremta peptídica a partir d’un microorganisme, i s’ha aplicat per a poder

desenvolupar el software.

45

9.Annexos

Annex I. Cronologia El 1838, el nom Proteïna (del grec proteios, "primer") va ser suggerit per Jöns

Jacob Berzelius per a la substància complexa rica en nitrogen trobada en les

cèl·lules de tots els animals i vegetals.

1819-1904 es descobreixen la major part dels 20 aminoàcids comuns en les

proteïnes.

1864 Felix Hoppe-Seyler cristal·litza per primera vegada i posa nom a

l'hemoglobina.

1894 Hermann Emil Fischer proposa una analogia clau i pany per a les

interaccions enzim-substrat.

1897, Buchner i Buchner van demostrar que els extractes exempts de cèl·lules de

llevat poden fermentar la sacarosa per formar diòxid de carboni i etanol, per tant

van establir les bases de la enzimologia.

1926 James Batcheller Sumner va cristal·litzar ureasa en forma pura, i va

demostrar que les proteïnes poden tenir activitat catalítica d'enzims. Svedberg

va desenvolupar la primera centrifugadora analítica i la va utilitzar per calcular el

pes molecular de l'hemoglobina.

1933 Arne Wilhelm Kaurin Tiselius va introduir l'electroforesi per separar les

proteïnes en solució.

1934 Bernal i Crowfoot van preparar els primers patrons detallats d'una proteïna

per difracció de raigs X, obtinguts a partir de cristalls de l'enzim pepsina.

1942 Archer John Porter Martin i Richard LM Synge van desenvolupar la

cromatografia, una tècnica que ara s'utilitza per separar proteïnes.

1951 Linus Carl Pauling I Robert Corey proposar l'estructura d'una conformació

helicoïdal d'una cadena d'aminoàcids -la hèlix α- i l'estructura de la làmina β, les

quals van ser trobades posteriorment en moltes proteïnes.

1955 Frederick Sanger determina per primera vegada la seqüència d'aminoàcids

d'una proteïna (insulina).

46

1956 Vernon Ingram va produir la primera empremta proteica i va demostrar

que la diferència entre l'hemoglobina de l'anèmia falciforme i l'hemoglobina

normal es deu al canvi d'un sol aminoàcid.

1960 John Kendrew va descriure la primera estructura tridimensional detallada

d'una proteïna (la mioglobina l'esperma de la balena) amb una resolució de 0,2

nm, i Perutz va proposar una estructura de resolució molt més baixa per

l'hemoglobina.

1963 Monod, Jacob i Changeux reconèixer que molts enzims es regulen per mitjà

de canvis al·lostèrics en la seva conformació.

1995 Marc R. Wilkins va encunyar el terme Proteoma a la totalitat de proteïnes

presents en una cèl·lula.

47

Annex II. Proteïnes

Les proteïnes

Les proteïnes estan formades per aminoàcids. Tot i que, fins fa poc, es pensava que els

essers vius sintetitzaven proteïnes a partir de només 20 aminoàcids, els darrers anys

s’han trobat dos més (la selenocisteina i la pirrolisina) que fan que els científics hagin de

replantejar-ne el codi genètic.

Els aminoàcids més freqüents i de major interès són aquells que formen part de les

proteïnes. Dos aminoàcids es combinen en una reacció de condensació entre el grup

amino d'un i el carboxil de l'altre, alliberant una molècula d'aigua i formant un enllaç

amida que s'anomena enllaç peptídic; aquests dos "residus" d'aminoàcid formen un

dipèptid. Si s'uneix un tercer aminoàcid es forma un tripèptid i així, successivament, fins

a formar un polipèptid. Aquesta reacció té lloc de manera natural dins de les cèl·lules,

en els ribosomes. Tots els aminoàcids components de les proteïnes són L-alfa-

aminoàcids. Això vol dir que el grup amino està unit al carboni contigu al grup carboxil

(carboni alfa) o, dit d'una altra manera, que tant el carboxil com el amino estan units al

mateix carboni; a més, a aquest carboni alfa s'uneixen un hidrogen i una cadena

(habitualment anomenada cadena lateral o radical R) d'estructura variable, que

determina la identitat i les propietats de cada un dels diferents aminoàcids. Hi ha

centenars de radicals pel que es coneixen centenars d'aminoàcids diferents, però només

22 (els dos últims van ser descoberts l'any 2002) formen part de les proteïnes i tenen

codons específics en el codi genètic. La unió de diversos aminoàcids dóna lloc a cadenes

anomenades pèptids o polipèptids, que es diuen proteïnes quan la cadena polipeptídica

supera una certa longitud (entre 50 i 100 residus aminoàcids, depenent dels autors) o la

massa molecular total supera les 5000 uma i, especialment, quan tenen una estructura

tridimensional estable definida.

Estructura: L'estructura general d'un alfa-aminoàcid s'estableix per la presència d'un

carboni central (alfa) unit a un grup carboxil, un grup amino, un hidrogen i la cadena

lateral.

48

Tant el carboxil com l’amino són grups funcionals susceptibles d ‘ionització depenent

dels canvis de pH, per això cap aminoàcid en dissolució es troba realment en la forma

normalment representada, sinó que es troba ionitzat

A pH baix (àcid), els aminoàcids es troben majoritàriament en la seva forma catiònica

(amb càrrega positiva), mentre que a pH alt (bàsic) es troben en la seva forma aniònica

(amb càrrega negativa). Per a valors de pH intermedis, com els propis dels mitjans

biològics, els aminoàcids es poden trobar en una forma d'ió dipolar o zwitterions (amb

un grup catiònic i un altre aniònic).

Els 22 aminoàcids que formen part de les proteïnes són:

Núm Nom Abreviatura

1 Valina Val, V

2 Leucina Leu, L

3 Treonina Thr, T

4 Lisina Lys, K

5 Triptòfan Trp, W

6 Histidina His, H

7 Fenilalanina Phe, F

8 Isoleucina Ile, I

9 Arginina Arg, R

10 Metionina Met, M

11 Alanina Ala, A

49

12 Prolina Pro, P

13 Glicina Gly, G

14 Serina Ser, S

15 Cisteína Cys, C

16 Asparagina Asn, N

17 Glutamina Gln, Q

18 Tirosina Tyr, Y

19 Àcid Aspàrtic Asp, D

20 Àcid Glutàmic Glu, E

21 Selenocisteina Sec, U

22 Pirrolisina Pyl, O

Figura 19. Els 22 aminoàcids descrits i les seves abreviatures.

D’acord a la seva cadena lateral, els aminoàcids es poden dividir en:

Figura 20. Divisió dels aminoàcids en funció de la seva cadena lateral.

50

Classificació de les proteïnes

Per les seves propietats fisico-químiques, les proteïnes es poden classificar en:

Proteïnes simples (holoproteids), formades solament per aminoàcids i derivats

Proteïnes conjugades (heteroproteids), formades per aminoàcids acompanyats

de substancies diverses

Proteïnes derivades, substancies formades per desnaturalització i desdoblament

de les proteïnes.

Les proteïnes són necessàries per a la vida sobretot per la seva funció plàstica

(constitueixen el 75-80% del protoplasma deshidratat de la cèl·lula), però també per les

seves funcions biorreguladores (formen part dels enzims) i de defensa (els anticossos

són proteïnes). Les proteïnes tenen un paper fonamental per a la vida i són les

biomolècules més versàtils i diverses. Són imprescindibles per al creixement de

l'organisme i fan una enorme quantitat de funcions diferents.

Les proteïnes de tots els éssers vius estan determinades majoritàriament per la seva

genètica (amb excepció d'alguns pèptids antimicrobians de síntesi no-ribosomal), és a

dir, la informació genètica determina en gran mesura quines proteïnes té una cèl·lula,

un teixit i un organisme.

Les proteïnes es sintetitzen depenent de com es trobin regulats els gens que les

codifiquen. Per tant, són susceptibles a senyals o factors externs. El conjunt de les

proteïnes expressades en una circumstància determinada s’anomena proteoma.

Funcions de les proteïnes

Les proteïnes ocupen un lloc de màxima importància entre les molècules constituents

dels éssers vius (biomolècules). Pràcticament tots els processos biològics depenen de la

presència o l'activitat d'aquest tipus de molècules. N'hi ha prou amb alguns exemples

per fer-nos una idea de la varietat i transcendència de les funcions que exerceixen. Són

proteïnes:

Gairebé tots els enzims, catalitzadors de reaccions químiques en organismes vius 51

Moltes hormones, que regulen activitats cel·lulars

L'hemoglobina i altres molècules amb funcions de transport en la sang

Els anticossos, encarregats d'accions de defensa natural contra infeccions o

agents patògens

Protectora o defensiva (Ex: trombina i fibrinogen)

Els receptors de les cèl·lules, als quals es fixen molècules capaces de

desencadenar una resposta determinada

L'actina i la miosina, responsables de la contracció dels músculs

El col·lagen, integrant de fibres altament resistents en teixits de sosteniment

Funcions de reserva. Com l'ovoalbúmina en l'ou, o la caseïna en la llet

Homeostàtica: col·laboren en el manteniment del pH (ja que actuen com un

tampó químic)

Transducció de senyals, per exemple, la rodopsina

Totes les proteïnes realitzen funcions elementals per a la vida cel·lular, però a més

cadascuna d'aquestes té una funció més específica de cara al nostre organisme.

A causa de les seves funcions, es poden classificar en:

1. Catalítiques: Aquesta funció és desenvolupada per enzims proteics que

s'encarreguen de realitzar reaccions químiques d'una manera més ràpida i

eficient. Es tracta de processos que resulten de gran importància per a

l'organisme. Per exemple, podem citar la pepsina, un enzim que es troba en el

sistema digestiu i s'encarrega de degradar els aliments.

2. Reguladores: Les hormones són un tipus de proteïnes les quals ajuden a que hi

hagi un equilibri entre les funcions que realitza el cos. Un exemple és el cas de la

insulina que s'encarrega de regular la glucosa que es troba a la sang.

3. Estructurals: Aquest tipus de proteïnes tenen la funció de donar resistència i

elasticitat que, a la fi, permet formar teixits així com la de donar suport a altres

estructures. Aquest és el cas de la tubulina que es troba en el citoesquelet.

4. Defensives: Són les encarregades de defensar l'organisme. Per exemple, les

glicoproteïnes que s'encarreguen de produir immunoglobulines que defensen

l'organisme contra cossos estranys, o la queratina que protegeix la pell, així com

el fibrinogen o la protrombina que formen els coàguls. 52

5. Transport: La funció d'aquestes proteïnes és portar substàncies a través de

l'organisme allà on es necessitin. Per exemple, proteïnes com ara l’hemoglobina

que porta l'oxigen a través de la sang.

6. Receptores: Aquest tipus de proteïnes es troben a la membrana cel·lular i porten

a terme la funció de rebre senyals perquè la cèl·lula pugui realitzar la seva funció,

com l’acetilcolina que rep senyals per produir la contracció dels músculs

(realitzada per altres proteïnes estructurals, l’actina i la miosina).

53

Estructura de les proteïnes

L’estructura d’una proteïna és la manera com s'organitza una

proteïna per adquirir certa forma. D’entrada, les proteïnes

presenten una disposició característica en condicions fisiològiques,

però si es canvien aquestes condicions, com temperatura o pH, la

proteïna perd la conformació i també la seva funció, procés

anomenat desnaturalització. La funció depèn de la conformació i

aquesta ve determinada per la seqüència d'aminoàcids i la relació

físico-química entre aquests. Per a l'estudi de l'estructura és

freqüent considerar una divisió en quatre nivells d'organització, tot

i que el quart no sempre està present.

Figura 21. Les quatre estructures de les proteïnes..

- Estructura primària: és la forma d'organització més bàsica de les proteïnes.

Aquest tipus d'estructura de les proteïnes està determinada per la seqüència

d'aminoàcids de la cadena proteica, és a dir, el nombre d'aminoàcids presents i

l'ordre en què estan enllaçats per mitjà d'enllaços peptídics. Les cadenes laterals

Hèlix alfa: En aquesta estructura la cadena polipeptídica es desenvolupa en espiral sobre si mateixa a causa dels girs produïts entorn del carboni beta de cada aminoàcid. Aquesta estructura es manté gràcies als enllaços d'hidrogen intracatenaris formats entre el grup-C = O de l'aminoàcid "n" i el-NH de l'"n +4" (quatre aminoàcids més endavant en la cadena). Un exemple particular és la Hèlix de col·lagen: una varietat particular de l'estructura secundària, característica del col·lagen, proteïna present en tendons i teixit connectiu. Existeixen altres tipus d'hèlixs: Hèlix 310 (ponts d'hidrogen entre els aminoàcids "n" i "n +3 ") i hèlix Π (ponts d'hidrogen entre els aminoàcids" n "i" n +5 "), però són molt menys usuals.

54

dels aminoàcids s'estenen a partir d'una cadena principal. Per convenció,

(coincidint amb el sentit de síntesi natural en RER) l'ordre d'escriptura és sempre

des del grup amino-terminal fins al carboxi-terminal.

- Estructura secundària: és el plegament regular local entre residus aminoacídics

propers a aquesta cadena polipeptídica. Aquest tipus d'estructura de les

proteïnes s'adopta gràcies a la formació d'enllaços d’hidrogen entre els grups

carbonil (-CO-) i amino (-NH-) dels carbonis involucrats en les unions peptídiques

d'aminoàcids propers a la cadena. Es freqüent que aquesta estructura formi una

mena d’espiral anomenada hèlix alfa (veure quadre).

- Estructura terciària: està assegurada per quatre classes d'interaccions: enllaços

ponts disulfur entre cisteïnes, ponts d'hidrogen entre cadenes laterals,

interaccions iòniques, interaccions de Van der Waals, i l'efecte hidròfob (exclusió

de les molècules d'aigua evitant el seu contacte amb els residus hidròfobs, que

queden empaquetats a l'interior de l'estructura). Les interaccions entre les

cadenes laterals dels residus de la proteïna dirigeixen al polipèptid per constituir

una estructura compacta. Pel que fa als nivells de l'estructura de les proteïnes,

pot tenir una forma més àmplia que el normal.

Comprèn la gamma de proteïnes oligocèniques, és a

dir aquelles proteïnes que consten amb més d'una

cadena polipeptídica, en la qual a més pot existir un

comportament al·lostèric segons el mètode concertat

de Jacques Monod.

- Estructura quaternària: deriva de la conjunció de

diverses cadenes d’aminoàcids que, gràcies a la seva

unió, realitzen el procés de la disjunció, donant així un

resultat favorable davant les proteïnes ja

incrementades. A través de l'organització proteica

quaternària es formen estructures de gran importància biològica com els

microtúbuls, microfilaments, capsòmers de virus i complexos enzimàtics. També

les fibres del col·lagen trobades en l'espai extracel·lular del teixit conjuntiu estan

constituïdes per l'agregació de cadenes polipeptídiques de tropocol·lagen. En

Full plegat beta: Quan la cadena principal s'estira al màxim que permeten els seus enllaços covalents s'adopta una configuració espacial anomenada cadena beta. Algunes regions de proteïnes adopten una estructura en ziga-zaga i s'associen entre si establint unions mitjançant enllaços d'hidrogen intracatenaris. Tots els enllaços peptídics participen en aquests enllaços creuats, conferint així gran estabilitat a l'estructura. La forma en beta és una conformació simple formada per dues o més cadenes polipeptídiques paral·leles (que corren en el mateix sentit) o antiparal·leles (que corren en direccions oposades) i s'adossen estretament per mitjà de ponts d'hidrogen i diversos arranjaments entre els radicals lliures dels aminoàcids. Aquesta conformació té una estructura laminar i plegada, a la manera d'un acordió.

55

general, l'estructura quaternària dóna la funció de la proteïna, però hi ha

exemples de proteïnes actives fora del seu complex quaternari. Arranjaments de

subunitats poden conferir al complex quaternari o punt d'eix de simetria, però

això no és obligatori. L’al·losterisme tracta de la regulació enzimàtica de les

propietats d'una proteïna multimèrica. L’hemoglobina proporciona un exemple

ben estudiat, però no és l'únic.

La conformació espaial d'una proteïna està determinada per l'estructura secundària i

terciària. L'associació de diverses cadenes polipeptídiques origina un nivell superior

d'organització, l’estructura quaternària.

L'estructura secundària va ser introduïda per Kaj Ulrik

Linderstrom-Lang a la Universitat de Stanford el 1952. Es

denomina estructura terciària d'una proteïna a la distribució

tridimensional de tots els àtoms que constitueixen la proteïna.

Es pot afirmar que de l'estructura terciària deriven les

propietats biològiques d'aquestes, ja que la disposició en l'espai dels diferents grups

funcionals de la proteïna, condiciona la seva capacitat d'interacció amb altres grups

lligands. D'aquesta manera, l'estructura primària (seqüència d'aminoàcids) de la

proteïna determina l'estructura terciària. L'estructura terciària d'una proteïna està

generalment conformada per diversos trams amb estructures secundàries diferents. Pel

que fa als nivells de l'estructura de les proteïnes, en la estructura terciària generalment

els aminoàcids apolars se situen cap a l'interior de la proteïna i els polars cap a l'exterior,

de manera que puguin interactuar amb l'aigua circumdant. En el cas de proteïnes

integrals de membrana, els aminoàcids hidrofòbics queden exposats a l'interior de la

bicapa lipídica. Per tant, aquest tipus d'estructura és la que li dóna a la proteïnes seves

particularitats fisicoquímiques com ara la polaritat o apolaritat de la molècula.

Girs beta: Seqüències de la cadena polipeptídica amb estructura alfa o beta, sovint estan connectades entre si per mitjà dels anomenats girs beta. Són seqüències curtes, amb una conformació característica que imposa un brusc gir de 180 graus a la cadena principal d'un polipèptid. Pauling va utilitzar la cristal·lografia de raigs X per deduir l'estructura secundària de les proteïnes.

56

Propietats de les proteïnes

Solubilitat: Es manté sempre que els enllaços forts i febles estiguin presents. Si

s'augmenta la temperatura i el pH es perd la solubilitat.

Capacitat electrolítica: Es determina mitjançant l'electroforesi, tècnica analítica

en la qual si les proteïnes es traslladen al pol positiu és perquè la seva molècula

té càrrega negativa i viceversa.

Especificitat: Cada proteïna té una funció específica que està determinada per la

seva estructura primària.

Amortidor de pH (conegut com a efecte tampó): Actuen com amortidors de pH

a causa del seu caràcter amfòter, és a dir, poden comportar-se com àcids (donant

electrons) o com a bases (acceptant electrons).

També es pot establir una classificació per a la seva forma:

- Fibroses: presenten cadenes polipeptídiques llargues i una estructura secundària

atípica. Són insolubles en aigua i en dissolucions aquoses. Alguns exemples

d'aquestes son queratina, col·lagen i fibrina.

- Globulars: es caracteritzen per doblegar les seves cadenes en una forma esfèrica

atapeïda o compacta deixant grups hidròfobs cap a dintre de la proteïna i grups

hidròfils cap a fora, el que fa que siguin solubles en dissolvents polars com

l'aigua. La majoria dels enzims, anticossos, algunes hormones i proteïnes de

transport, són exemples de proteïnes globulars.

- Mixtes: posseeix una part fibril·lar (comunament en el centre de la proteïna) i

una altra part globular (en els extrems).

O per la seva composició química:

- Simples: la seva hidròlisi només produeix aminoàcids. Exemples d'aquestes són

la insulina i el col·lagen (globulars i fibroses).

o Escleroproteïnes: Són essencialment insolubles, fibroses, amb un grau de

cristal·linitat relativament alt. Són resistents a l'acció de molts enzims i

57

exerceixen funcions estructurals en el regne animal. Els col·làgens

constitueixen el principal agent d'unió a l'os, el cartílag i el teixit

connectiu. Altres exemples són la queratina, la fibroïna i la sericina.

o Esferoproteïnes: Contenen molècules de forma més o menys esfèrica. Se

subdivideixen en cinc classes segons les seves solubilitat:

Albúmines: Solubles en aigua i solucions salines diluïdes.

Exemples: l'ovoalbúmina i la lactoalbúmina.

Globulines: Insolubles en aigua però solubles en solucions salines.

Exemples: miosina, immunoglobulines, lactoglobulines, glicina i

araquina.

Glutelines: Insolubles en aigua o solucions salines, però solubles

en mitjans àcids o bàsics. Exemples: les glutelines del blat.

Prolamines: Solubles en etanol al 50% -80%. Exemples: gliadina

del blat i zeïna del blat de moro.

Histones: són solubles en medis àcids.

- Conjugades

o Heteroproteïnes: la seva hidròlisi produeix aminoàcids i altres

substàncies no proteiques amb un grup prostètic.

58

El genoma

Els aminoàcids proteics, canònics o naturals són aquells que estan codificats en el

genoma; per a la majoria dels éssers vius són 20: alanina, arginina, asparagina,

Figura 22. Taula de correspondència codons-aminoàcids.

aspartat, cisteïna, fenilalanina, glicina, glutamat, glutamina, histidina, isoleucina,

leucina, lisina, metionina, prolina, serina, tirosina, treonina, triptòfan i valina. No obstant

això, hi ha excepcions: en alguns éssers vius el codi genètic té petites modificacions i pot

codificar altres aminoàcids. L'aminoàcid número 21 és la selenocisteïna, que apareix tant

en eucariotes com procariotes i arqueobacteris, i el nombre 22 és la pirrolisina que

apareix només en arqueobacteris.

Figura 23. Mecanismes de transcripció i traducció de les proteïnes.

59

Mecanisme de traducció del genoma i síntesi de proteïnes

Aquest mecanisme està dividit en dues fases:

- Transcripció de l’ADN. Quan una part de la informació continguda a la molècula

d’ADN cal que sigui utilitzada al citoplasma de la cèl·lula, aquest fragment és

transcrit a una petita molècula d’ARN anomenat missatger (ARNm). L’estructura

de l’ARNm és molt similar a la de l’ADN, llevat de la substitució d’una base, la

timina (T), per un altra, l’uracil (U). Els nucleòtids es van afegint un a un en

direcció 5’ a 3’, emprant com a motlle una sola de les cadenes de l’ADN original.

Una proteïna anomenada polimerasa es utilitzada com a catalitzador.

- Traducció de l’ARN. La informació genètica transportada per l’ARNm haurà de

ser traduïda al citoplasma per a un element anomenat ribosoma, corpuscle

format per un conjunt de proteïnes i una forma especial d’ARN anomenat ARN

ribosòmic. Dins del ribosoma es produeix un fenomen conegut com a

transcripció: una altre forma d’ARN, l’ARN de transferència (ARNt) reconeix la

seqüència de nucleòtids de l’ARNm en grups de 3. A cada grup de tres bases

(codó) de l’ARNm li correspon un aminoàcid específic que va enganxat a l’ARNt.

A la taula adjunta es pot veure la correspondència entre els diferents codons i

els aminoàcids. Existeixen codons que no tenen una correspondència amb cap

aminoàcid; alguns serveixen com a senyals d’aturada de la transcripció, com ara

els codons UAA, UGA o UAG (tot i que aquests últims, en algunes espècies de

bacteris i eucariotes, codifiquen uns aminoàcids recentment descoberts, la

pirrolisina i la selenocisteïna). Altres, fins i tot, no tenen una funció encara

determinada: són els anomenats introns. Aquest procés es veu complementat

amb d’altres que fan el procés de traducció més complex, i que poden provocar,

inclús, que una mateixa seqüència d’aminoàcids doni com a resultat proteïnes

diferents a causa de la seva forma de plegament, o mitjançant el procés de

splicing o tall de seqüències supernumeràries.

60

Annex III. Màquina Arduino.

Què és Arduino?

Arduino és una plataforma electrònica de codi obert, basada en un hardware i un

software molt senzills d’utilitzar i de baix cost. La placa Arduino, a través de sensors, és

capaç de recollir indicadors externs, interpretar-los i convertir-los en senyals que

permeten controlar llums, motors i altres actuadors.

Placa Arduino Uno

La placa Arduino Uno, utilitzada aquí, està constituïda per a una placa base, un

microprocessador ATmega328, amb 14 entrades/sortides digitals i analògiques (6 dels

quals es podem utilitzar com a sortides PWM), un ressonador de 16 MHz, una connexió

USB, un capçal ICSP, un jack de corrent i un botó de reset. Existeixen diverses revisions

de la placa (la revisió actual al mercat és la 3), que es diferencien de les anteriors en

determinats components que han anat optimitzant o incorporant a la màquina.

Figura 24. Arduino Uno.

61

Annex IV. Glossari.

Microcontrolador

Un microcontrolador és un circuit integrat programable

Circuit imprès

Un circuit imprès és una petita pastilla d’un material semiconductor, sobre la que es

fabriquen circuits electrònics.

Plataforma Wiring

Una plataforma Wiring és un entorn de programació (programming framework) per a

microcontroladors. Wiring permet escriure software independent de la plataforma per

a controlar dispositius de qualsevol placa amb microcontroladors.

Codi obert

El concepte codi obert es refereix al software desenvolupat i distribuït lliurement. La

seva avantatge fonamental no és tant la seva gratuïtat, com la possibilitat d’accedir al

codi font per a tal de poder adaptar un determinat software a una aplicació pròpia.

Arduino

Arduino va ser un rei d’Itàlia del segle XI. A la ciutat d’Ivrea (Itàlia), a prop de l’Institut

IVREA, hi havia un bar anomenat Bar di Re Arduino (Bar del Rei Arduino), on Massimo

Benzi, un del creadors de la màquina, passava moltes hores – potser més de les

estrictament necessàries. A l’hora de posar un nom a la seva màquina, la va batejar amb

aquest nom en homenatge a aquest bar (no en homenatge al rei).

PWM

PWM són les sigles de Pulse Width Modulation (Modulació per Amples de Pulsos). Te

moltes aplicacions en electrònica, pero aqui és utilitzada per codificar informació per a

la seva transmissió.

Proteïna

Les proteïnes son molècules formades per cadenes d’aminoàcids. El terme proteïna

prové del francès “protéine” i aquesta del grec “πρωτεῖος” (proteios), que significa

prominent, de primera qualitat.

Aminoàcid

62

Un aminoàcid és una molècula orgànica amb un grup amino (-NH2) i un grup carboxil (-

COOH).

Genoma

Es denomina Genoma d’una espècie al conjunt de la informació genètica, codificada en

una o varies molècules d’ADN (Àcid Desoxiribonucleic) (en molt poques espècies ARN),

on estan emmagatzemades les claus per a la diferenciació de les cèl·lules que formen

els diferents teixits i òrgans d’un individu.

Proteoma

El conjunt de les proteïnes expressades en una circumstància determinada. El terme

“proteoma” es va utilitzar per primera vegada el 1995, per a descriure el conjunto de

proteïnes que s’expressen a partir d’un genoma.

Electroforesi

L'electroforesi consisteix en el transport de molècules sota l'acció d'un camp elèctric.

Espectrometria de masses

L’espectrometria de masses està basada en la obtenció d’ions a partir de molècules

orgàniques en fase gasosa; un cop obtinguts aquests ions, es separen d’acord a la seva

massa i la seva càrrega, i finalment es detecten a través d’un instrument adient,

l’espectròmetre de masses.

L’espectròmetre de masses es un instrument que permet analitzar amb gran precisió la

composició de diferents elements químics i isòtops atòmics, separant els nuclis atòmics

en funció de la seva relació càrrega-massa (z/m)2.

MALDI-TOF

MALDI-TOF es una tècnica d ’ionització suau utilitzada en espectrometria de masses. Es

denomina MALDI per a les seves sigles en anglès: Matrix-Assisted Laser

Desorption/Ionization i TOF pel detector d’ions que s’acobla al MALDI, el nom del qual

procedeix també de les seves sigles en anglès Time-Of-Flight.

Algorisme

Un algorisme és un conjunt finit d’instruccions que s’han de seguir per a resoldre un

problema.

Anàlisi de sèries temporals

2 La relació massa-càrrega d’una partícula resulta de dividir la seva massa entre la seva càrrega elèctrica. 63

Mètode estadístic que pretén fer possible la comparació de sèries numèriques

univariants. Les sèries que aquí es compararan podran temporalment regulars però no

normalitzades

64

10.Bibliografia

1. Sánchez, Ana M.; Fedriani, Eugenio. Redefiniendo la interpolación para el anàlisis

de series temporales irregulares. XVI Jornadas de ASEPUMA y IV. Encuentro

Internacional Rect@ Vol Actas_16 Issue 1:307. Universidad Pablo de Olavide.

Sevilla

2. Espectrometria de masas. Museo Nacional de Ciencias Naturales. CSIC. Madrid

3. Srinivasan, G. James, C. M. & Krzycki, J. A. Pyrrolysine encoded by UAG in

Archaea: charging of a UAG-decoding specialized tRNA. Science, 296, 1459 -

1462, (2002)

4. Félix Gil-Dones, Tatiana Martín-Rojas, Luis F. López-Almodovar, Rocío Juárez-

Tosina, Fernando de la Cuesta, Gloria Álvarez-Llamas, Sergio Alonso-Orgaz,

Fernando Vivanco, Luis Rodríguez-Padial, María G. Barderas. Obtención de un

protocolo óptimo para el análisis proteómico de válvulas aórticas humanas sanas

y estenóticas. Rev Esp Cardiol. 2010;63(01):46-53 - Vol. 63 Núm.01

5. Toomer, Gerald J. Al-Khwarazmi. Dictionary of Scientific Geography, 7. New York.

1970, pp 359 i ss.

6. Brassard, Gilles; Bratley, Paul. Fundamentos de Algoritmia. Madrid: Prentice Hall.

1997

7. Guía para la redacción de artículos científicos destinados a la publicación.

Segunda edición. Programa general de información y UNISIST. UNESCO. París,

maig de 1983.

8. Jean-Michel Claverie, Cedric Notredame. Bioinformatics for dummies. 2ª edició.

Indianapolis, Wiley Publishing Inc. 2007.

9. Joan Ribas Lequerica. Arduino Práctico. Madrid, Anaya multimèdia. Agost 2013.

10. Josip Lovrić. Introducing Proteomics from concepts to sample separation, mass

spectometry and data analysis. Oxford, Regne Unit. Wiley-Blackwell. 2011.

11. Andros Corral. Fundamentos y funciones de la espectrometria de masas. Facultad

de farmàcia de la Universitat de Valènica. 2006.

12. Harvey, A. (1990). Forecasting, structural time series models and the Kalmanlter.

Cambridge University Press. New York

65

13. Hyper Physics. Mass Spectometry. [en línia ]. [Consulta: 3.9.2014].

http://hyperphysics.phy-astr.gsu.edu/hbase/magnetic/maspec.html

14. National Cancer Institute. Proteomics. [en línia]. [Consulta: 20.8.2014].

http://proteomics.cancer.gov/whatisproteomics

66

http://hyperphysics.phy-astr.gsu.edu/hbase/magnetic/maspec.html

http://proteomics.cancer.gov/whatisproteomics

PROTEÒMICA I INFORMÀTICA

Documents

Transcript of PROTEÒMICA I INFORMÀTICA