PROTEÒMICA I INFORMÀTICA
Transcript of PROTEÒMICA I INFORMÀTICA
PROTEÒMICA I
INFORMÀTICA Eines informàtiques en la
identificació de microorganismes simples a través de la comparació
del proteoma
CONTINGUTS: ·Tècniques d’anàlisi de proteïnes·Assimilació del proteoma a una seqüència gràfica·Traducció d’una seqüencia gràfica a una sèrienumèrica·Comparació de sèries numèriques com a medid’identificació de microorganismes simples·Algorisme de comparació de sèries numèriques
Iu-Aran Fernàndez i PeruchoTreball de recercaB2KBarcelona, Desembre 2014Tutora: Fina Bruil
Agraïments Vull agrair per la seva ajuda en el treball al meu pare Pere-Enric i a la meva mare Marta.
Al Dr. Joan Izquierdo per invitar-me al seu laboratori on té un espectròmetre de masses, eina fonamental per al meu treball.
A la meva tutora del treball Fina Bruil, per controlar-me el treball i dedicar el seu temps en supervisar-me.
Resum En aquest treball s’estudien els camps de la proteòmica i la informàtica amb l’objectiu
de crear un software capaç d’identificar mostres orgàniques a partir de la seva
empremta peptídica. Per a provar el funcionament del software, es necessari un sensor
de so construït amb una màquina Arduino que sigui capaç d’imitar un espectròmetre de
masses per a fer un espectre de masses i poder identificar-lo i comparar-lo amb el
software programat.
Resumen En este trabajo se estudian los campos de la proteòmica i la informática con el objetivo
de crear un software capaz de identificar muestras orgánicas a partir de su huella
peptídica. Para probar el correcto funcionamiento del software, es necesario un sensor
de sonido construido con una maquina Arduino que sea capaz de imitar a un
espectrómetro de masa para hacer una huella peptídica para poderlo identificar i
compararlo con el software creado.
Abstract In this work proteomics and informatics will be studies to develop a software capable of
identifying organic samples from its Peptide mass fingerprinting. To test the software, a
sound sensor made with an Arduino board will be needed in order to imitate a mass
spectrometer capable of making a Peptide mass fingerprinting to identify it and compare
it with the developed software.
Index
1.Introducció ........................................................................................................................ 1
2.Hipòtesi ............................................................................................................................. 2
3.Objectius ........................................................................................................................... 3
4.Marc teòric ........................................................................................................................ 4 4.1.Proteòmica ................................................................................................................. 4 4.1.1.El proteoma ................................................................................................ 4 4.2.Informàtica ................................................................................................................. 5
4.2.1.Algorismes .................................................................................................. 5 4.2.2.Llenguatges de programació ...................................................................... 6 4.2.3.Software ..................................................................................................... 7 4.2.4.Eines estadístiques ...................................................................................... 7
5.Materials i mètodes ......................................................................................................... 10 5.1.Espectròmetre de masses…………………………………………………………………………………… 10 5.1.1.Resultat de l’anàlisi de l’Espectròmetre de Masses (EM)..........................15 5.2.Placa Arduino............................................................................................................19 5.3.Aplicació informàtica. Protein Identifier...................................................................22
6.Documentació tècnica P.I. ............................................................................................... 24
7.Resultats .......................................................................................................................... 40
8.Conclusions ..................................................................................................................... 45
9.Annexos ........................................................................................................................... 46 Annex I. Cronologia ........................................................................................................ 46 Annex II. Proteïnes ......................................................................................................... 48
Les proteïnes ...................................................................................................... 48 Classificació de les proteïnes ............................................................................. 51 Estructura de les proteïnes ................................................................................ 54 Propietats de les proteïnes ................................................................................ 57
El genoma .......................................................................................................... 59 Mecanisme de traducció del genoma i síntesi de proteïnes..............................60 Annex III. Màquina Arduino............................................................................................ 61 Annex IV. Glossari. .......................................................................................................... 62
10.Bibliografia .................................................................................................................... 65
1.Introducció
Des de sempre la biologia i la tecnologia són temes que m’han agradat, i aquest treball
suposava investigar a fons sobre algun tema que m’agradés, per això he triat combinar
aquests dos camps per assolir un objectiu.
En aquest treball he buscat utilitzar la biologia i les eines que em proporciona la
informàtica per a poder desenvolupar un software capaç d’identificar microorganismes
simples utilitzant un espectròmetre de masses.
La biologia i la informàtica son dos camps que ja fa anys s’han complementat l’un a l’altre
i han permès grans avenços. Jo he volgut combinar-los per tal de poder arribar a
l’objectiu que és identificar un microorganisme.
Per assolir tal objectiu, utilitzaré un espectròmetre de masses per a obtenir un espectre
de masses de diverses mostres orgàniques.
Amb programes com Access, programaré un software capaç d’analitzar, identificar i
comparar els resultats de l’espectròmetre amb una base de dades, amb la qual podrem
identificar la mostra orgànica analitzada amb l’espectròmetre.
També, al no poder utilitzar l’espectròmetre en les fases inicials de programació del
software, construiré un sensor amb un màquina Arduino per a poder simular l’anàlisi de
resultats que porta a terme l’espectròmetre.
En el treball primer explicaré els coneixements bàsics sobre proteòmica per a fer el
treball, juntament amb els coneixements d’informàtica aplicats al desenvolupament del
software.
Descriuré i explicaré el funcionament dels materials i els mètodes utilitzats en el treball
tals com l’espectròmetre, la màquina Arduino o diversos processos informàtics.
Un cop programat el software, avaluaré el seu funcionament analitzant una sèrie de
mostres i les compararé entre si per tal de saber si el funcionament és correcte o no.
1
2.Hipòtesi
Volem identificar un microorganisme a partir de la seva empremta peptídica mitjançant
un algorisme/ programa informàtic.
Utilitzant un espectròmetre de masses, podem obtenir l’empremta peptídica d’un
microorganisme. Per tal de saber de quin microorganisme es tracta, hem d’utilitzar un
algorisme informàtic que identifiqui l’empremta peptídica en una base de dades.
2
3.Objectius
-Entendre el funcionament d’un espectròmetre de masses per tal d’obtenir un espectre
de masses.
-Comprendre i analitzar un espectre de masses.
-Construir un sensor que simuli un espectròmetre de masses per a provar el software
durant les primeres fases de desenvolupament.
-Desenvolupar un software capaç de tractar les dades d’un espectre de masses i
comparar-lo amb una base de dades. Que sigui capaç també, d’identificar la molècula a
la qual correspon l’espectre de masses analitzat.
3
4.Marc teòric
4.1.Proteòmica
La proteòmica és l'estudi de tot el conjunt de proteïnes expressades d’un genoma
(proteoma). Les tècniques de la proteòmica aborden l’estudi d’aquest conjunt de
proteïnes. En la primera dimensió les proteïnes se separen per isoelectroenfocament,
que separa les proteïnes amb base en la seva càrrega elèctrica. En la segona dimensió,
les proteïnes se separen per pes molecular utilitzant SDS-PAGE. El gel es tenyeix en blau
de Coomassie o Nitrat de plata per a visualitzar les proteïnes; les taques al gel són les
proteïnes que han migrat a una localització específica i permet d'aquesta manera
identificar-les (veure figura 5).
4.1.1.El proteoma
Figura 1. Electroforesi en dues dimensions.
El proteoma cel·lular és la totalitat de proteïnes expressades en una cèl·lula particular
sota condicions de medi ambient i etapa de desenvolupament (o cicle cel·lular)
específiques, com ho pot ser l'exposició a estimulació hormonal. El terme proteoma es
va utilitzar per primera vegada el 1995 i ha estat aplicat a diferents escales en els 4
sistemes biològics. També es pot parlar del proteoma complet d'un organisme, que pot
ser conceptualitzat com les proteïnes de totes les varietats de proteomes cel·lulars. És
aproximadament, l'equivalent “proteínic” del genoma.
4.2.Informàtica
4.2.1.Algorismes
Un algorisme és un conjunt prescrit d’instruccions i regles perfectament definides,
ordenades i finites que permet realitzar qualsevol activitat mitjançant passes
successives que no poden generar incerteses.
El terme va ser encunyat pel matemàtic, astrònom i geògraf musulmà Al-Juarismi.
Els algorismes poden ser utilitzats per a càlcul, processament de dades, raonament
automatitzat...
Començant amb un estat inicial, quan l’algorisme s’executa porta a terme un conjunt
d’instruccions finites condicionades per la “entrada” i la “sortida” que volem assolir,
desembocant a un estat final que pot ésser, per exemple, el resultat d’una operació.
Tot i la naturalesa procedimental dels algorismes, alguns algorismes (coneguts com a
“Randomized Algorithms”) fan ús de l’aleatorietat en la seva lògica.
Les persones utilitzen els algorismes durant el dia a dia en accions tan simples com posar
una rentadora, fer el dinar o tocar música.
En aquest apartat es distingeix entre la història de la paraula que denota el procés i la
història de la ciència que estudia l'aplicació d'algorismes i els requeriments d'aquests.
És evident que la repetició de tasques amb un mateix procés és practicada per tot tipus
de sistemes vivents i que ja es coneixien alguns algorismes com per exemple el
d'Euclides, pertanyents a l'àmbit de les matemàtiques, abans de designar-los com a tals.
El coneixement de l'aplicabilitat de tècniques repetitives a l'hora de resoldre problemes
matemàtics prové de l'antiga Babilònia on es troben escrits on es proposen algorismes i
on també es feien servir taules de càlcul per resoldre problemes.
Altres exemples de l'antiguitat es troben a l'algorisme d'Euclides per calcular el màxim
comú divisor de dos enters positius pertanyen a l'àmbit de les matemàtiques. Cal
5
destacar també, el treball d'Euclides al camp de la geometria, que fou un referent per al
desenvolupament formal de l'Algorísmica. Un exemple d'aplicació dels algorismes és el
problema que consisteix a trobar el màxim d'un conjunt de nombres.
4.2.2.Llenguatges de programació
Un llenguatge de programació és un llenguatge informàtic utilitzat per controlar el
comportament d'una màquina, normalment un ordinador. Cada llenguatge té una sèrie
de regles sintàctiques i semàntiques estrictes que cal seguir per escriure un programa
informàtic, i que en descriuen l'estructura i el significat respectivament. Aquestes regles
permeten especificar tant la classe de dades amb què treballarà el programa com les
accions que realitzarà. Mentre que alguns llenguatges es defineixen per una
especificació formal (un document), altres són definits oficiosament per una
implementació concreta (un compilador).
El llenguatge utilitzat en la part pràctica d’aquest treball es el Visual Basic for
Applications (VBA). El Visual Basic for Applications és un llenguatge de
programació desenvolupat per Alan Cooper per a Microsoft. Aquest llenguatge és un
dialecte del BASIC, amb importants afegits. La seva primera versió va ser presentada
el 1991 amb la intenció de simplificar la programació utilitzant un ambient de
desenvolupament completament gràfic que facilités la creació d'interfícies gràfiques i
en certa mesura també la programació en ella mateixa. La seva sintaxi, derivada de
l'antic llenguatge BASIC, ha sigut ampliada amb el temps en afegir-s'hi les
característiques típiques dels llenguatges estructurats moderns. S'hi ha afegit una
implementació limitada de la Programació Orientada a Objectes (els mateixos formularis
i controls són objectes), encara que s'admet el polimorfisme mitjançant l'ús de les
interfícies, no admet l'herència. No requereix el maneig de punters i consta d'un maneig
molt senzill de cadenes de caràcters. Disposa de diverses biblioteques per a gestió de
bases de dades, podent connectar amb qualsevol base de dades d'ODBC(Open DataBase
Connectivity:Informix, DBase, Access, MySQL, SQL Server, PostgreSQL ,etc...) i a través
d'ADO (ActiveX Data Objects).
6
4.2.3.Software
Microsoft Access és un programa de gestió de bases de dades relacional creat
per Microsoft per a ús personal i de petites empreses. Forma part del paquet Microsoft
Office. Per treballar en una base de dades cal, en primer lloc, carregar el programa i,
després definir la base de dades o utilitzar-ne una de construïda anteriorment.
Microsoft Excel és un full de càlcul. Un full de càlcul és un programa informàtic que
permet manipular dades numèriques i alfanumèriques disposades en forma de taules.
Normalment és possible realitzar càlculs complexos amb fórmules i funcions, i a partir
d'aquestes dibuixar tot tipus de gràfics.
4.2.4.Eines estadístiques
Per a l’anàlisi i tractament de les dades necessitem diverses eines estadístiques que
utilitzarà el software:
Recta de regressió
En la regressió lineal o ajust lineal és un mètode estadístic que modelitza la relació entre
una variable dependent I, les variables independents X i i un terme aleatori ε. Aquest
model es pot expressar com:
on és la intersecció o terme "constant", les (i> 0) són els paràmetres respectius a
cada variable independent, i és el nombre de paràmetres independents que cal tenir
en compte en la regressió
En medicina i biologia ja s’utilitza aquest mètode des de fa molt temps. Les primeres
proves relacionant la mortalitat amb el fumar tabac van venir d'estudis que utilitzaven
la regressió lineal. Els investigadors inclouen una gran quantitat de variables en la seva
anàlisi de regressió en un esforç per eliminar factors que puguin produir correlacions
espúries. En el cas del tabaquisme, els investigadors van incloure l'estat socioeconòmic
per assegurar que els efectes de mortalitat per tabaquisme no siguin un efecte de la
seva educació o posició econòmica. No obstant, és impossible incloure totes les
variables possibles en un estudi de regressió. En l'exemple del tabaquisme,
un hipotètic gen podria augmentar la mortalitat i augmentar la propensió a adquirir 7
malalties relacionades amb el consum de tabac. Per aquesta raó, en l'actualitat
les proves controlades aleatòries són considerades molt més fiables que les anàlisis de
regressió.
Correlació lineal
En probabilitat i estadística, la correlació indica la força i la direcció d'una relació lineal i
proporcionalitat entre dues variables estadístiques. Es considera que dues variables
quantitatives estan correlacionades quan els valors d'una d'elles varien sistemàticament
pel que fa als valors homònims de l'altra: si tenim dues variables (A i B) hi ha correlació
si en augmentar els valors de A fan també els de B i viceversa. La correlació entre dues
variables no implica, per si mateixa, cap relació de causalitat.
Distribució khi quadrat
En estadística, la distribució khi quadrat (pronunciat [xi] o [ki]), també anomenada khi
quadrat de Pearson, (χ2) és una distribució de probabilitat contínua amb un
paràmetre k que representa els graus de llibertat de la variable aleatòria:
X= Z21+...+Z2n
on Zk són variables independents de distribució normal, de mitjana 0 i variància 1.
Sèries temporals
Una sèrie temporal o cronològica és una seqüència de dades, observacions o valors,
mesurats en determinats moments del temps, ordenats cronològicament i,
normalment, espaiats entre si de manera uniforme. L' anàlisi de sèries
temporals comprèn mètodes que ajuden a interpretar aquest tipus de dades, extraient
informació representativa, tant referent als orígens o relacions subjacents com a la
possibilitat de extrapolar i predir el seu comportament futur.
De fet un dels usos més habituals de les sèries de dades temporals és la seva anàlisi per
predicció i pronòstic. Per exemple de les dades climàtiques, de les accions de borsa, o
les sèries pluviomètriques. Resulta difícil imaginar una branca de les ciències en què no
apareguin dades que puguin ser considerades com a sèries temporals.
Al cas que ocupa aquest treball la utilització de sèries temporals no és adient, ja que les
seqüències de valors d’una anàlisi d’EM no és repetitiva ni predictible. Però sí que
8
resulten molt útils algunes eines matemàtiques relacionades amb les sèries numèriques,
com ara les eines de normalització de les dades.
Normalització de dades
Ens podem trobar amb que les dades d’una sèrie siguin heterogenis, o les escales siguin
diferents, o que estiguin desigualment espaiades.
Aquest darrer cas es pot solucionar emprant l’anomenat filtre de Kalman (Harvey, 1990)
per a analitzar sèries de dades que presentin irregularitats. En aquest cas no ha estat
utilitzat aquest filtre.
Existeixen diferents tipus de normalització de dades per a sèries amb escales diferents.
Per exemple, cal esmentar (Sánchez & Fedriani) :
𝑋𝑋′𝑖𝑖 =𝑋𝑋𝑖𝑖
𝑀𝑀𝑀𝑀𝑀𝑀(𝑋𝑋𝑖𝑖)
𝑋𝑋′𝑖𝑖 =𝑋𝑋𝑖𝑖 − 𝑀𝑀𝑖𝑖𝑀𝑀(𝑋𝑋𝑖𝑖)
𝑀𝑀𝑀𝑀𝑀𝑀(𝑋𝑋𝑖𝑖) −𝑀𝑀𝑖𝑖𝑀𝑀(𝑋𝑋𝑖𝑖)
𝑋𝑋′𝑖𝑖 =𝑋𝑋𝑖𝑖
∑ 𝑋𝑋𝑖𝑖𝑛𝑛𝑖𝑖=1
𝑋𝑋′𝑖𝑖 =𝑋𝑋𝑖𝑖
�∑ 𝑋𝑋𝑖𝑖𝑛𝑛𝑖𝑖=1
El segon procediment és una linealització amb ordenada a l’origen. Els altres tres són
linealitzacions pures. Es va triar el segon procediment per a raons de homogeneïtzació
de les dades; totes les dades llegides d’aquesta manera estan compreses en el rang de
0 a 1.
9
5.Materials i mètodes
5.1Espectròmetre de masses
L'espectròmetre de masses és un instrument que mesura les masses i les concentracions
relatives (m/z) d'àtoms i molècules. Utilitza el fonament bàsic de la força magnètica
sobre una partícula carregada en moviment. Si una càrrega entra en un camp magnètic
movent-se en direcció perpendicular al camp, seguirà una trajectòria circular. La força
magnètica, que és perpendicular a la velocitat, proporciona la força centrípeta.
El selector de velocitat s'utilitza amb l'espectròmetre de masses per seleccionar només
les partícules carregades amb una velocitat específica per a l'anàlisi. Es basa en una
disposició o geometria de camps on les forçes elèctriques i les forces magnètiques
oposades l'una a l'altra, coincideixin en valor per a una determinada velocitat de
partícula. D'aquesta manera només quedaran sense desviar les partícules amb una
velocitat seleccionada.
Els Espectròmetres de Masses són detectors sensibles d'isòtops basats en les seves
masses. També s'utilitzen en la datació per Carboni i altres processos de datació
radioactiva. La combinació d'un espectròmetre de masses i un cromatògraf de gasos,
constitueixen una poderosa eina per a la detecció de traces de contaminants o toxines.
Una sèrie de satèl·lits i coets espacials, porten espectròmetres de masses per a la
identificació de petites quantitats de partícules interceptades en l'espai. Un exemple del
seu ús es per l’anàlisi del vent solar.
En un espectròmetre de masses, s'utilitzen camps magnètics per a atreure ions positius.
El seu funcionament es divideix en les diferents cambres que té:
Vaporització: El primer que es necessita és vaporitzar la mostra. Per a la vaporitzar la
mostra es mescla una dissolució aquosa de la mostra amb un excés d'una substància que
absorbeix radiació. La dissolució resultant s'evapora a la superfície d'una sonda
metàl·lica que s'utilitza per la introducció de la mostra. La mescla sòlida, llavors, s'exposa
al feix d'un làser polsant, que provocarà la sublimació de la mostra, que passarà cap a la
cambra d ‘ionització.
10
Figura 2. Espectròmetre de masses.
Ionització: Quan la mostra passa a la cambra d ‘ionització, un filament de metall escalfat
elèctricament emet electrons que queden atrapats en una "trampa d'electrons", que es
tracta d'una placa carregada positivament. Aquests electrons bombardegen la mostra, i
els xocs ocasionats tenen l'energia suficient per ionitzar les molècules de la mostra. La
gran majoria de les molècules tindran una càrrega de +1, per la dificultat que comporta
treure electrons de capes més properes al nucli. Amb una altra placa carregada
positivament, els ions positius es repelen i son enviats a una altra cambra.
La reacció que es porta a terme es representa: M + e → à M + + 2e −
11
Figura 3. Fase d’acceleració d’ions. Les dues primeres plaques carregades atorguen energia cinètica als ions.
Acceleració: La cambra d'acceleració, atorga la mateixa energia cinètica a tots els ions.
Quan tots els ions tenen la mateixa energia cinètica, són llavors transportats cap a un
tub molt fi on els ions poden interaccionar amb camps magnètics. El potencial aplicat ve
determinat per la fórmula: v = [2eV/m] ½. On V és el potencial aplicat, e és la càrrega
de l'electró i m la massa.
12
Figura 4. Fase d’acceleració d’ions. Les dues primeres plaques carregades atorguen energia cinètica als ions.
Desviació: Al aplicar un camp magnètic sobre els ions, aquests descriuen una trajectòria
circular amb radi "r" descrit en la
operació: r = (2Vm/H2e) ½. El tub per
on es transporten els electrons, fa un gir.
Al aplicar un camp magnètic als ions de la
mostra, podem fer que un ió en concret
desviï la seva trajectòria per a passar pel
tub sense col·lisionar amb les parets. Així,
sabent el valor del camp magnètic,
només uns ions amb una relació
càrrega/massa específica podrà arribar al
detector degut a la desviació del tub.
Variant la intensitat del camp magnètic
(entre 500i 8000 gauss), podem fer que el ions, depenent de la seva relació
massa/càrrega, arribin en ordre per tal de mesurar l'abundància relativa de cada
molècula en la mostra.
Figura 5. L’electroimant desvia els ions creant una camp electromagnètic. El ions B són massa lleugers i no els afecta el camp. Els ions A són massa pesants i els afecta massa el camp. Els ions C tenen la relació m/z ideal per passar pel tub sense xocar amb les parets.
13
Anàlisi: Un cop obtinguda la mostra, obtindrem un espectre de masses en que es mostra
l'abundància relativa de cada relació massa/càrrega, la qual es diferent en cada
molècula.
Figura 6. Esquema general del procés d’espectrometria de masses.
Figura 7. Interior d’un espectròmetre de masses. La part visible correspon a la cambra d ’ionització i la d’acceleració.
14
5.1.1.Resultat de l’anàlisi de l’Espectròmetre de Masses (EM)
El resultats d’una anàlisi per espectrometria de masses és un conjunt de dades
numèriques que indiquen, per a una banda, la relació massa/càrrega (m/z), i que es
representa a abcises (eix X), i per l’altre la intensitat de la mesura, que es representa a
ordenades (eix Y). Aquestes col·leccions de dades s’acostumen a representar en forma
gràfica.
En el cas de substàncies simples les gràfiques són relativament senzilles. Per exemple,
una substància com ara el ciclopropà presenta una gràfica com aquesta:
Figura 8. Espectre de masses del ciclopropà.
0
20
40
60
80
100
120
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96
Inte
nsity
Ciclopropà
15
Pel diòxid de carboni, la seva gràfica és:
Figura 9. Espectre de masses del diòxid de carboni.
Quan es parla de proteïnes, tant el procès analític, com les gràfiques resultants, són més
complexes.
Les anàlisis d’espectrometria de masses en proteïnes necessiten un preprocés que
faciliti la divisió de les proteïnes, en especial les de gran mida, en pèptids més petits, per
a evitar un efecte d’emmascarament per solapament de pics.
Aquesta divisió es fa tractant les proteïnes amb tripsina per a tallar els enllaços en llocs
coneguts. D’aquesta manera, s’assegura que els talls produeixin sempre els mateixos
pèptids. Existeix el risc de que alguns talls no es produeixin, pel que el risc d’error no és
menyspreable, però en general els resultats són molt més acurats que amb proteïnes
sense tractar.
Els resultats de l’anàlisi d’EM dona com a resultats gràfiques més complexes que les
anteriors.
0
20
40
60
80
100
120
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96
Inte
nsity
Diòxid de carboni
16
A continuació es mostren dos exemples:
Figura 10. Empremta peptídica obtinguda amb un espectròmetre de masses.
Figura 11. Empremta peptídica obtinguda amb un espectròmetre de masses.
Ambdós exemples corresponen a l’anàlisi d’una proteïna tractada amb tripsina i dividida
en pèptids més petits que es poden identificar pels pics d’intensitat.
17
Figura 12. Espectre de masses d’una proteïna.
A la pràctica, en la comparació de gràfiques, només es comparen els valors dels pics, ja
que, a la teoria, la resta de valors haurien de ser 0.
A l’aplicació construïda aqui, i debut a la naturalesa de les dades que s’han utilitzat com
a simulació d’un EM, s’han considerat totes les dades de l’espectre de la gràfica.
020406080
100120
113
126
139
152
165
178
191
110
4111
7113
0114
3115
6116
9118
2119
5120
8122
1123
4124
7126
0127
3128
6129
9131
2132
5133
8135
1136
4137
7139
01
Inte
nsity
Proteïna
18
5.2.Placa Arduino
Amb l’objectiu de simular un espectròmetre de masses, i debut a la impossibilitat de
disposar-ne d’un per a la realització de les mesures, es va decidir realitzar les proves de
coincidència de dues formes diferents: a) emprar un dispositiu que pogués proporcionar
un registre de dades similar al generat a l’EM, i b) aconseguir fitxers de dades reals de
resultats d’anàlisis a l’EM i comparar-los.
A la opció de generar col·leccions de dades pròpies amb un dispositiu que pogués
simular un EM, es va triar una màquina Arduino, que és una família de
microcontroladors basats en plaques de circuits impresos, i controlats per un codi obert
basat en l’estàndard Wiring (veure annex III). Amb aquest dispositiu, el disseny de
circuits electrònics amb microcontroladors és molt més simple i, sobre tot, molt més
econòmic que amb microcontroladors convencionals.
La màquina emprada va ser un Arduino Uno, amb els sensors inclosos al Starter Kit,
complementats amb un joc addicional de 37 sensors i un lector de targes SD.
De cara a simular la lectura d’un EM, es va construir una estructura amb la placa Arduino
Uno i un sensor que havia de registrar els valors d’un esdeveniment. Aquest
esdeveniment havia de tenir la següent característica: els valors recollits, i que
s’enviaven a la finestra Serial Port, havien de tenir una certa “repetibilitat”, és a dir,
qualsevol esdeveniment repetit diverses vegades havia de produir una col·lecció de
dades comparable. Només d’aquesta manera la sèrie numèrica llegida per la màquina i
registrada a la finestra Serial Port podia emmagatzemar-se en forma de fitxer i era capaç
de simular el resultat d’una anàlisi de proteïnes en un EM: s’esperava que els pics debuts
a valors alts en l’esdeveniment registrat pel sensor fossin equivalents als pics dels valors
m/z de les proteïnes presents a una mostra a una anàlisi realitzada a l’EM.
Finalment, es va decidir utilitzar un sensor de volum de so, i els esdeveniments a
registrar pistes d’àudio. El sensor de volum registra el volum del so que es produeix al
seu voltant, i el transforma a un valor numèric. L’objectiu era crear registres molt
similars per a esdeveniments molt similars. Es va programar la màquina Arduino per a
que el sensor registrés a intervals de 50 milisegons el volum d’una determinada cançó.
Era important una normalització de les dades de manera que: a) es comencés a registrar
dades sempre en el mateix moment per a afavorir la comparabilitat de les dades
19
numèriques, i b) el volum es transformés sempre en un valor dins d’un rang determinat,
on el valor mínim (absència de so), fos 0.
És important explicar aquí els efectes de la digitalització d’un paràmetre analògic i la
seva relació amb una probable asincronia de les dades.
La digitalització és el procés mitjançant el qual es transforma un senyal analògic, és a dir,
el que pot prendre qualsevol valor dins un rang continu i pot ser generada per una funció
matemàtica continua, en un senyal digital, és a dir, aquell que només pren un conjunt
de valors discrets. La finalitat és facilitar el procesament de la informació continguda en
el senyal. Consisteix bàsicament en realitzar, de forma periòdica, mesures de l’amplitud
d’un senyal analògic. Aquesta transformació depèn, entre altres factors, del rellotge o
senyal de sincronització. Contra més gran sigui la freqüència del rellotge, més acurada
serà la transformació.
Un efecte perniciós d’una freqüència baixa pot ser que l’inici d’un pols a la digitalització
no coincideixi exactament en dues mesures en teoria idèntiques, ja que els valors
analògics poden prendre qualsevol valor real, mentre que les mesures digitals només
poden prendre determinats valors discrets.
Figura 13. Conversió analògica-digital.
Donat que la freqüencia del rellotge a la digitalització de dades va ser de 1/50 ms, és
relativament fàcil que es produís una asincronia entre dues mostres corresponents al
mateix registre de so.
20
Es va determinar que la finestra Serial Port comencés a gravar els registres del sensor en
el moment que detectés un valor per a sobre d’un llindar mínim, o soroll de fons. Per tal
de determinar aquest soroll de fons, es varen realitzar uns registres en silenci, i els valors
emmagatzemats a la finestra Serial Port es van analitzar numèricament. Es va
determinar que el valor mínim dels valors registrats era el soroll de fons, i es va establir
com a valor 0 del llindar inferior.
Era molt important que el sensor registrés exclusivament el so de la cançó que sonava,
cap so ambiental addicional, pel qual la placa Arduino, així com el dispositiu d’emissió
de so, un altaveu, estiguessin acústicament aïllats.
Figura 14. Arduino amb sensor de so.
Altre valor important era el nombre de resultats de cada sèrie. Es va decidir que aquest
nombre seria determinat i limitat en l’aplicació informàtica que analitzaria
posteriorment les dades. Com que els registres es realitzaven cada 50 milisegons, i es
varen realitzar lectures cada 2 minuts, el nombre total de dades a registrar era, en teoria,
de 2.400. A la pràctica, i debut a algunes dades que no varen ser correctament
21
registrades, es va prendre com a valor màxim de dades el nombre de dades de la mostra
que va rebre menys resultats, que va ser de 2.391.
5.3Aplicació informàtica. Protein Identifier (P.I.)
Un cop realitzades les mesures a la màquina Arduino, les lectures es mostraven, com
abans s’ha dit, a una finestra de l’aplicació Arduino anomenada Serial Port, que
correspon a les dades que els sensors analògics recullen, i que, un cop digitalitzats, es
mostren en forma numèrica.
Aquestes dades es varen recollir en un fitxer Excel inicial per a fer la primera
normalització. Tal i com s’ha explicat a dalt, les dades en brut eren primer sotmeses a la
normalització:
𝑋𝑋′𝑖𝑖 =𝑋𝑋𝑖𝑖 − 𝑀𝑀𝑖𝑖𝑀𝑀(𝑋𝑋𝑖𝑖)
𝑀𝑀𝑀𝑀𝑀𝑀(𝑋𝑋𝑖𝑖) −𝑀𝑀𝑖𝑖𝑀𝑀(𝑋𝑋𝑖𝑖)
a un full del fitxer Excel. Les dades eren transformades amb la fórmula Excel:
=(B2-MIN($B$2:$B$2392))/(MAX($B$2:$B$2392)-MIN($B$2:$B$2392))
per a totes les cel·les de les columnes de dades del full.
El següent pas era identificar manualment els punts d’inici de cada col·lecció de dades
per a evitar la asincronia de les mostres.
Seguidament, s’exportaven les dades a un fitxer de text amb separació per tabulador
entre les columnes X i Y, i se li donava un nom que identifiqués cada fragment de so.
Aquests fitxers són els que eren analitzats a l’aplicació Protein Identifier (P.I.). Aquesta
aplicació és capaç de llegir un fitxer de text creat amb el mètode anterior, comparar-ho
amb tots els fitxers de la base de dades de l’aplicació, emetre un resultat en funció del
nivell de detecció definit a la taula Paràmetres, Aquest resultat pot ser Identificació
realitzada o Identificació no realitzada. En cas de que la identificació no sigui positiva, hi
ha la possibilitat d’emmagatzemar la mostra per a futures comparacions.
22
L’algorisme de comparació està basat en la comparació de dos conjunt de dades pel
coeficient de correlació lineal. Les dades a comparar, en principi han de mostrar una
relació lineal al ser de naturalesa idèntica.
L’aplicació va ser realitzada en anglès per a motius d’exportabilitat, donat el cas.
A la documentació tècnica adjunta a continuació s’explica cada part del programa.
23
6.Documentació tècnica P.I.
Documentació tècnica aplicació PI (Protein Identifier)
Taules
Nom Camps Atributs Explicació
SAMPLES Id Autonumèric
PrimaryKey
Clau primària de l’Access
SampleID Numèric (Enter llarg) Identificació de la mostra
X Numèric (Enter llarg) Valor consecutiu de l’1 al 60 (paràmetre del
sistema). Correspon a l’eix X
Y Numèric (Simple) Valor de la lectura de la mostra. Correspon
a l’eix Y
SAMPLENAMES Id Autonumèric
PrimaryKey
Clau primària de l’Access
SampleID Numèric (Enter llarg) Identificació de la mostra
SampleDescription Text Descripció de la mostra
OwnerID Numèric (Enter llarg) Identificació de l’usuari
SavingDate Data/Hora Data de gravació de la mostra
SAMPLECOMPARISONS Id Autonumèric
PrimaryKey
Clau primària de l’Access
SampleID1 Numèric (Enter llarg) Identificació de la mostra 1
SampleID2 Numèric (Enter llarg) Identificació de la mostra 2
MatchingRate Numèric (Simple) Taxa de correspondència entre mostres.
Veure text treball
MatchDate Data/Hora Data de realització del test
PARAMETERS Id Autonumèric
PrimaryKey
Clau primària de l’Access
MinMatchingRate Numèric (Simple) Valor mínim per a considerar que la
correspondència entre mostres és positiva
MaxSampleNumber Numèric (Enter llarg) Nombre màxim de valors per a cada mostra
(aquí s’ha fixat a 60)
OWNERS Id Autonumèric
PrimaryKey
Clau primària de l’Access
OwnerId Numèric (Enter llarg) Identificació numèrica de l’usuari
OwnerUser Text Identificació alfanumèrica de l’usuari
OwnerPassword Text Password encriptat de l’usuari
SAMPLELOADED Id Autonumèric
PrimaryKey
Clau primària de l’Access
SampleID Numèric (Enter llarg) Identificació de la mostra
X Numèric (Enter llarg) Valor consecutiu de l’1 al 60 (paràmetre del
sistema). Correspon a l’eix X
24
Y Numèric (Simple) Valor de la lectura de la mostra. Correspon
a l’eix Y
LoadingDate Data/Hora Data de la lectura de la mostra
SAMPLESTEMP
(Taula temporal equivalent a
SAMPLES)
Id Autonumèric
PrimaryKey
Clau primària de l’Access
SampleID Numèric (Enter llarg) Identificació de la mostra
X Numèric (Enter llarg) Valor consecutiu de l’1 al 60 (paràmetre del
sistema). Correspon a l’eix X
Y Numèric (Simple) Valor de la lectura de la mostra. Correspon
a l’eix Y
SAMPLECOMPARISONSTEMP
(Taula temporal equivalent a
SAMPLECOMPARISONS)
Id Autonumèric
PrimaryKey
Clau primària de l’Access
SampleID1 Numèric (Enter llarg) Identificació de la mostra 1
SampleID2 Numèric (Enter llarg) Identificació de la mostra 2
MatchingRate Numèric (Simple) Taxa de correspondència entre mostres.
Veure text treball
MatchDate Data/Hora Data de realització del test
SAMPLESTEMP2 Id Autonumèric
PrimaryKey
Clau primària de l’Access
SampleID Numèric (Enter llarg) Identificació de la mostra
X Numèric (Enter llarg) Valor consecutiu de l’1 al 60 (paràmetre del
sistema). Correspon a l’eix X
Y Numèric (Simple) Valor de la lectura de la mostra. Correspon
a l’eix Y
Consultes
Nom consulta Consulta el llenguatge SQL Explicació
sqlSampleNames SELECT SampleID, SampleDescription,
[SavingDate]
FROM SampleNames
ORDER BY SampleID;
Selecciona els camps Identificació de
mostra, Descripció de mostra i Data de
gravació de la Taula SAMPLENAMES, i ho
ordena pel camp Identificació de mostra
sqlSampleComparisons SELECT SampleID1, SampleID2, MatchingRate,
MatchDate
FROM SampleComparisons
ORDER BY MatchingRate DESC;
Selecciona els camps Identificació de
mostra 1, Identificació de mostra 2, Taxa
de correspondència i Data de
correspondència de la Taula
SAMPLECOMPARISONS, i ho ordena pel
camp Taxa de correspondència en ordre
Descendent
sqlSampleLoaded SELECT X, [Y]
FROM SampleLoaded;
Selecciona els camps X i Y de la Taula
SAMPLELOADED
25
sqlSampleComparisonsTemp SELECT * FROM SampleComparisonsTemp
ORDER BY MatchingRate DESC;
Selecciona TOTS els camps de la Taula
SAMPLECOMPARISONSTEMP, i ho ordena
pel camp MatchingRate en ordre
Descendent
Formularis
frmParameters
Formulari per a introduir els paràmetres generals del sistema
Els paràmetres s’expliquen a la Taula Parameters
OwnerInquiry
Formulari per a introduir la identificació d’un usuari. Sol·licita el Nom de l’usuari i el seu Password,
aquest en format encriptat
StartUp
Formulari que fa les vegades de Menu d’opcions de l’aplicació.
Existeixen tres opcions principals:
- Llegir una mostra externa a partir d’un fitxer de text
26
- Mostrar els resultats de la comparació d’aquesta mostra amb tots els perfils presents a la
base de dades. Des d’aquesta opció existiran altres opcions derivades de la comparació, com
ara la de gravar la mostra com un nou perfil a la base de dades
- Editar els valor de la Taula de paràmetres de l’aplicació
Sortir de l’aplicació
frmSampleDisplay
Formulari per a mostrar el perfil amb més probabilitat de correspondre a la mostra llegida. Si no hi ha
cap mostra la taxa de correspondencia de la qual sigui superior al paràmetre del sistema
MinMatchingRate, dona com a resultat el missatge NO MATCHING RESULTS. En cas contrari, el resulta
tés MATCHING RESULTS FOUND, i mostra la gràfica de la mostra en lectura, així com la mostra amb la
taxa de correspondencia més alta, per a facilitar la comparació visual. També mostra una taula amb les
taxes de correspondencia entre totes les mostres comparades, per a que l’usuari pugui veure si hi ha
més d’una mostra que pot correspondre a la mostra en lectura.
27
ReadExternalSample
Formulari per a visualitzar les dades i la gràfica de la mostra llegida des d’un fitxer de text en el format
“X;Y”, on X correspon als valors d’abcises (consecutius de l’1 al 60) i Y als valors de les lectures en
ordenades, separats per un punt i coma (;).
Els valors de X, en el cas d’una anàlisi del proteoma d’un microorganisme per espectrometria de masses,
correspondria al valor de m/z (massa/càrrega), i el valor de Y, a l’abundància de cada molècula.
SampleComparison
ResultOK
Formulari per a mostrar els resultats de la comparació d’una mostra llegida des d’un fitxer de text i
corresponent a una medició, amb totes les mostres registrades a la base de dades.
S’indiquen els valors estadístics de la mostra llegida, així com els de les mostres registrades a la base de
dades, conforme es va produint la comparació. També es mostra la gràfica de cadascuna de les mostres
presents a la base de dades per a una millor identificació visual.
28
Al final, a la part dreta del formulari, s’indica la mostra amb la probabilitat més alta de correspondre a la
mostra en lectura, sempre i quan la seva taxa de correspondència sigui més alta que el valor mínim
indicat a la Taula Parameters, camp MinMatchingRate.
També és possible gravar la mostra en lectura a la base de dades, com a un “perfil” més per a futures
comparacions.
Macros
CloseOwnerInquiry Tanca el formulari d’identificació d’usuari
frmOwnerInquiry
frmSampleDisplay Tanca el formulari frmSampleDisplay
ReadExternalSample Obre el formulari
SampleComparisonResultsOK
SampleComparisonResultsOK Tanca el formulari
SampleComparisonResultsOK
StartUp Obre el formulari frmParameters
StartUp_OpenForm_CompareSamples Obre el formulari
SampleComparisonResultsOK
29
Codi del mòdul Module1
Declaracions generals
Option Compare Database
Global tUser As String ‘ Nom de l’usuari
Global tUserID As String ‘ Identificació de l’usuari
Global tSampleID As Integer ‘ Identificació de la mostra
Global tSampleDescription As String ‘ Descripció de la mostra
Global tMinMR As Double ‘ Paràmetre “MinMatchingRate”
Global tMaxSN As Long ‘ Paràmetre “MaxSampleNumber”
Formulari frmSampleDisplay
Private Sub Cuadro_combinado5_Click() ‘ Executable al fer click al ComboBox on
Dim dbProt As Database ‘ es sol·licita la identificació de la
Dim rsSCT As Recordset ‘ mostra a estudiar
Set dbProt = CurrentDb
dbProt.Execute ("DELETE * FROM SampleComparisonsTemp")
dbProt.Execute ("INSERT INTO SampleComparisonsTemp
(SampleID1,SampleID2,MatchingRate,MatchDate) SELECT
SampleID1,SampleID2,MatchingRate,MatchDate FROM SampleComparisons WHERE SampleID1=" &
Cuadro_combinado5.Value & " OR SampleID2=" & Cuadro_combinado5.Value) & " ORDER BY
MatchingRate DESC"
Secundario3.Requery
DoEvents
Set rsSCT = dbProt.OpenRecordset("SampleComparisonsTemp")
If Not rsSCT.EOF Then
rsSCT.MoveFirst
If rsSCT("MatchingRate") > tMinMR Then
Texto7 = "************ MATCHING RESULTS FOUND ************"
If Cuadro_combinado5.Value = rsSCT("SampleID1") Then
Texto11 = rsSCT("SampleID2")
Else
Texto11 = rsSCT("SampleID1")
End If
dbProt.Execute ("DELETE * FROM SamplesTemp")
dbProt.Execute ("INSERT INTO SamplesTemp (SampleID,X,Y) SELECT SampleID,X,Y
FROM Samples WHERE SampleID=" & Cuadro_combinado5.Value)
Gráfico14.Requery
Etiqueta16.Caption = "Requested Sample : " & Cuadro_combinado5.Value
dbProt.Execute ("DELETE * FROM SamplesTemp2")
dbProt.Execute ("INSERT INTO SamplesTemp2 (SampleID,X,Y) SELECT SampleID,X,Y
FROM Samples WHERE SampleID=" & Texto11)
Gráfico15.Requery
Etiqueta17.Caption = "Matching Sample: " & Texto11
DoEvents
Else
Texto7 = "************ NO MATCHING RESULTS ************"
Texto11 = ""
30
Etiqueta16.Caption = ""
Etiqueta17.Caption = ""
dbProt.Execute ("DELETE * FROM SamplesTemp")
Gráfico14.Requery
dbProt.Execute ("DELETE * FROM SamplesTemp2")
Gráfico15.Requery
DoEvents
End If
End If
End Sub
Formulari OwnerInquiry
Private Sub Comando0_Click() ‘ Executable al fer click al botó “Cancel”
btnCancel = True
End Sub
Private Sub Comando1_Click() ‘ Executable al fer click al botó “OK”
Dim dbOwner As Database
Dim rsOwner As Recordset
Dim iOwnerID As Long
Dim tOwnerPW As String
Dim iOK As Integer
If OwnerID = "" Or IsNull(OwnerID) Then Exit Sub
Set dbOwner = CurrentDb
Set rsOwner = dbOwner.OpenRecordset("SELECT * FROM Owners WHERE OwnerID=" & OwnerID)
If Not rsOwner.EOF Then
If OwnerPassword = rsOwner("OwnerPassword") Then
tUser = rsOwner("OwnerUser")
tUserID = rsOwner("OwnerID")
rsOwner.Close
dbOwner.Close
DoCmd.Close
DoCmd.OpenForm "StartUp"
Else
iOK = MsgBox("Wrong password for the user " & OwnerUser & ". Try again",
vbOKOnly, "Wrong Password")
OwnerPassword.SetFocus
End If
End If
End Sub
Private Sub Form_Load() ‘ Executable al carregar el formulari
Dim dbOwner As Database
Dim rsOwner As Recordset
Dim iOK As Integer
btnCancel = False
OwnerID.SetFocus
31
Set dbOwner = CurrentDb
Set rsOwner = dbOwner.OpenRecordset("SELECT * FROM Owners")
rsOwner.MoveLast
If rsOwner.RecordCount = 0 Then
iOK = MsgBox("No active users defined", vbOKOnly, "No users")
Unload Form_OwnerInquiry
End If
rsOwner.Close
End Sub
Private Sub OwnerID_LostFocus() ‘ Executable al perdre el Focus el formulari
Dim dbOwner2 As Database
Dim rsOwner2 As Recordset
Dim iOK As Integer
If OwnerID <> "" Then
Set dbOwner2 = CurrentDb
Set rsOwner2 = dbOwner2.OpenRecordset("SELECT * FROM Owners WHERE OwnerID=" &
OwnerID)
If rsOwner2.EOF Then
iOK = MsgBox("User not defined", vbOKOnly, "User not defined")
OwnerID.SetFocus
Else
OwnerUser = rsOwner2("OwnerUser")
End If
rsOwner2.Close
dbOwner2.Close
End If
End Sub
Formulari ReadExternalSample
Private Sub Comando13_Click() ‘ Executable al fer click al botó “Load File”
Dim iErr As Integer
Dim iErrOK As Boolean
Dim dbSL_RES As Database
Dim iCont As Integer
tSampleID = Texto3
tSampleDescription = Texto6
On Error GoTo errMsg
Set dbSL_RES = CurrentDb
dbSL_RES.Execute ("DELETE * FROM SampleLoaded")
Secundario14.Requery
iErrOK = False
If ctlFileSelector1.Path = "" Then Exit Sub
If Texto3 = "" Or IsNull(Texto3) Then
iErrOK = True
32
iErr = MsgBox("Sample ID is empty." & Chr(10) & "Please, enter a right value",
vbOKOnly, "Sample ID empty")
Exit Sub
Else
If Texto6 = "" Or IsNull(Texto6) Then
iErrOK = True
iErr = MsgBox("Sample description is empty." & Chr(10) & "Please, enter a
right text", vbOKOnly, "Sample description empty")
Exit Sub
End If
End If
iCont = 0
Open ctlFileSelector1.Path For Input As #1
While Not EOF(1)
iCont = iCont + 1
Line Input #1, strlinea
strcamp1 = Mid(strlinea, 1, 2)
strcamp2 = Mid(strlinea, 4, 3)
If iCont <= tMaxSN Then
CurrentDb.Execute ("INSERT INTO [SampleLoaded](SampleID,X,Y,LoadingDate)
VALUES ('" & Texto3 & "','" & strcamp1 & "','" & strcamp2 & "',#" & Format(Date,
"dd/mm/yyyy") & "#)")
End If
Wend
Close #1
Secundario14.Requery
Gráfico25.Requery
Exit Sub
errMsg:
If Err.Number = 53 Then
iErr = MsgBox("Error: File not found", vbOKOnly, "File not found")
Else
iErr = MsgBox("Error: " & Err.Number & "(" & Err.Description & ")", vbOKOnly, "Error
" & Err.Number)
End If
End Sub
Private Sub Form_Load() ‘ Executable al carregar el formulari
Dim dbSL_RES As Database
Dim rsSL_RES As Recordset
Dim strlinea As String
Dim strcamp1 As String
Dim strcamp2 As String
Dim strcamp3 As String
Texto0 = tUser
Set dbSL_RES = CurrentDb
dbSL_RES.Execute ("DELETE * FROM SampleLoaded")
Secundario14.Requery
33
End Sub
Formulari SampleComparisonResultsOK
Private Sub Comando12_Click() ‘ Executable al fer click al botó “Init Comparison”
Dim IDSerie1, IDSerie2 As Long
Dim SumaSerie As Double
Dim dbProt As Database
Dim rsSerie1 As Recordset
Dim rsSerie2 As Recordset
Dim rsSerieSQL As Recordset
Dim rsSerieName As Recordset
Dim i As Integer
Dim n As Integer
Dim MitjanaX As Double
Dim m As Integer
Dim MitjanaY As Double
Dim OK As Integer
Dim SD_X As Double
Dim SD_Y As Double
Dim tX, tY As Double
Dim COV_XY As Double
Dim CC As Double
Dim MinMR As Double
Dim sResultText As String
Etiqueta7.Visible = True
' Initialize lists
i = 1
j = Lista13.ListCount
If j > 1 Then
Do
Lista13.RemoveItem 0
Lista15.RemoveItem 0
i = i + 1
Loop While i <= j
End If
Gráfico18.Requery
' Select to filter a single sample from Samples table
Set dbProt = CurrentDb
Set rsSerieName = dbProt.OpenRecordset("SELECT * FROM SampleNames")
If Not rsSerieName.EOF Then
rsSerieName.MoveFirst
While Not rsSerieName.EOF
IDSerie1 = rsSerieName("SampleID")
If Not IsNull(IDSerie1) Then
34
Set rsSerie1 = dbProt.OpenRecordset("SELECT * FROM Samples WHERE SampleID =
" & IDSerie1)
If Not rsSerie1.EOF Then
dbProt.Execute ("DELETE * FROM SamplesTemp")
dbProt.Execute ("INSERT INTO SamplesTemp (SampleID,X,Y) SELECT
SampleID,X,Y FROM Samples WHERE SampleID=" & IDSerie1)
Gráfico19.Requery
Texto38 = tSampleID
DoEvents
rsSerie1.MoveFirst
SumaSerie = 0
n = 0
While Not rsSerie1.EOF
Texto2 = rsSerie1("SampleID")
Texto40 = rsSerie1("SampleID")
'Texto6 = ""
Lista13.AddItem rsSerie1![X]
Lista15.AddItem rsSerie1![Y]
SumaSerie = SumaSerie + rsSerie1![Y]
n = n + 1
MitjanaX = SumaSerie / n
rsSerie1.MoveNext
Wend
'rsSerie1.Close
Label21.Caption = MitjanaX
SumaSerie = 0
m = 0
Set rsSerie2 = dbProt.OpenRecordset("SELECT * FROM SampleLoaded")
If Not rsSerie2.EOF Then rsSerie2.MoveFirst
While Not rsSerie2.EOF
Texto0 = tSampleID 'rsSerie2("SampleID")
Texto4 = tSampleDescription ' rsSerie2("SampleDescription")
Lista13.AddItem rsSerie2![X]
Lista15.AddItem rsSerie2![Y]
SumaSerie = SumaSerie + rsSerie2![Y]
m = m + 1
rsSerie2.MoveNext
Wend
'rsSerie2.Close
MitjanaY = SumaSerie / m
Label23.Caption = MitjanaY
End If
End If
If Not rsSerieName.EOF Then
rsSerieName.MoveNext
If n <> m Then
OK = MsgBox("Error 1. Samples are not comparables. The number of
elements is different.", vbOKOnly, "Error 1")
Else
SumaSerie = 0
rsSerie1.MoveFirst
35
While Not rsSerie1.EOF
SumaSerie = SumaSerie + (rsSerie1![Y] - MitjanaX) ^ 2
rsSerie1.MoveNext
Wend
SD_X = Sqr(SumaSerie / n)
Label25.Caption = SD_X
SumaSerie = 0
rsSerie2.MoveFirst
While Not rsSerie2.EOF
SumaSerie = SumaSerie + (rsSerie2![Y] - MitjanaY) ^ 2
rsSerie2.MoveNext
Wend
SD_Y = Sqr(SumaSerie / m)
Label27.Caption = SD_Y
SumaSerie = 0
rsSerie1.MoveFirst
rsSerie2.MoveFirst
For i = 1 To n
If Not rsSerie1.EOF Then
tX = rsSerie1![Y] - MitjanaX
tY = rsSerie2![Y] - MitjanaY
SumaSerie = SumaSerie + tX * tY
rsSerie1.MoveNext
rsSerie2.MoveNext
End If
Next
COV_XY = SumaSerie / n
Label29.Caption = COV_XY
CC = COV_XY / (SD_X * SD_Y)
Label31.Caption = CC
End If
End If
rsSerie2.MoveFirst
If IDSerie1 <> rsSerie2("SampleID") Then
dbProt.Execute ("INSERT INTO SampleComparisons
(SampleID1,SampleID2,MatchingRate,MatchDate) VALUES (" & IDSerie1 & "," &
rsSerie2("SampleID") & "," & CC & ",#" & Format(Date, "dd/mm/yyyy") & "#)")
End If
Secundario10.Requery
Wend
End If
Etiqueta7.Visible = False
Etiqueta24.Caption = "Results of sample: " & tSampleID
dbProt.Execute ("DELETE * FROM SampleComparisonsTemp")
dbProt.Execute ("INSERT INTO SampleComparisonsTemp
(SampleID1,SampleID2,MatchingRate,MatchDate) SELECT
SampleID1,SampleID2,MatchingRate,MatchDate FROM SampleComparisons WHERE SampleID1=" &
tSampleID & " OR SampleID2=" & tSampleID)
Secundario25.Requery
36
On Error GoTo Final:
rsSerie1.Close
Set rsSerie1 = dbProt.OpenRecordset("Parameters")
MinMR = rsSerie1("MinMatchingRate")
Lista35.Visible = False
While Lista35.ListCount > 0
Lista35.RemoveItem 0
Wend
rsSerie2.Close
Set rsSerie2 = dbProt.OpenRecordset("SELECT * FROM SampleComparisonsTemp ORDER BY
MatchingRate DESC")
If Not rsSerie2.EOF Then
rsSerie2.MoveFirst
sResultText = "********** NO MATCHING RESULTS ***********"
If Not rsSerie2.EOF Then
If rsSerie2("MatchingRate") > MinMR Then
sResultText = "********** MATCHING RESULTS FOUND **********"
dbProt.Execute ("DELETE * FROM SamplesTemp")
Lista35.Visible = True
If rsSerie2("SampleID1") = tSampleID Then
Lista35.AddItem ("Sample Found: " & rsSerie2("SampleID2") & " with
Matching Rate: " & rsSerie2("MatchingRate"))
dbProt.Execute ("INSERT INTO SamplesTemp (SampleID,X,Y) SELECT
SampleID,X,Y FROM Samples WHERE SampleID=" & rsSerie2("SampleID2"))
Gráfico19.Requery
Texto40 = rsSerie2("SampleID2")
DoEvents
Else
Lista35.AddItem ("Sample Found: " & rsSerie2("SampleID1") & " with
Matching Rate: " & rsSerie2("MatchingRate"))
dbProt.Execute ("INSERT INTO SamplesTemp (SampleID,X,Y) SELECT
SampleID,X,Y FROM Samples WHERE SampleID=" & rsSerie2("SampleID1"))
Gráfico19.Requery
Texto40 = rsSerie2("SampleID1")
DoEvents
End If
End If
'rsSerie2.MoveNext
End If
Texto32 = sResultText
Else
Lista35.Visible = False
Texto32 = "********** NO MATCHING RESULTS ***********"
End If
Final:
End Sub
37
Private Sub Comando27_Click() ‘ Executable al fer click al botó “Save on DB”
Dim dbSL_RES As Database
Dim iErr As Integer
Etiqueta8.Visible = True
Set dbSL_RES = CurrentDb
dbSL_RES.Execute ("INSERT INTO Samples (SampleID,X,Y) SELECT SampleID,X,Y FROM
SampleLoaded")
dbSL_RES.Execute ("INSERT INTO SampleNames (SampleID,SampleDescription, OwnerID,
SavingDate) VALUES ('" & tSampleID & "','" & tSampleDescription & "'," & tUserID & ",#"
& Format(Date, "dd/mm/yyyy") & "#)")
iErr = MsgBox("Import executed", vbOKOnly, "Executed")
Etiqueta8.Visible = False
End Sub
Private Sub Form_Activate() ‘ Executable a l’activar el formulari
Dim dbProt As Database
Set dbProt = CurrentDb
Texto0 = tSampleID ' rsSerieID("SampleID")
Texto4 = tSampleDescription ' rsSerieID("SampleID")
dbProt.Execute ("DELETE * FROM SamplesTemp")
dbProt.Execute ("DELETE * FROM SampleComparisonsTemp")
Secundario25.Requery
DoEvents
End Sub
Private Sub Form_Load() ‘ Executable al carregar el formulari1
Dim dbProt As Database
Set dbProt = CurrentDb
Texto0 = tSampleID ' rsSerieID("SampleID")
Texto4 = tSampleDescription ' rsSerieID("SampleID")
dbProt.Execute ("DELETE * FROM SamplesTemp")
dbProt.Execute ("DELETE * FROM SampleComparisonsTemp")
Secundario25.Requery
DoEvents
End Sub
Formulari StartUp
Private Sub Comando4_Click() ‘ Executable al fer click al botó “Exit App”
DoCmd.Close
End Sub
Private Sub Form_Activate() ‘ Executable a l’activar el formulari
Main
End Sub
1 Cal notar la diferencia entre “Carregar” un formulari, i “Activar” un formulari. La càrrega d’un formulari es fa habitualment una única vegada durant l’execució del codi. El fet de sortir del formulari no significa la seva descàrrega, llevat que ho diguem explícitament. L’activació del formulari s’engega cada cop que el formulari es mostra a pantalla un cop carregat. Per tant, la primera vegada durant l’execució que es mostra un formulari, s’executaran les dues subrutines, “Load” i “Activate”, mentre que la resta de vegades només s’executarà la subrutina “Activate”.
38
Private Sub Form_GotFocus() ‘ Executable al rebre el Focus el formulari
Main
End Sub
Private Sub Form_Load() ‘ Executable al carregar el formulari
Main
End Sub
Sub Main() ‘ Subrutina Main. Es crida des de les subs anteriors
Dim dbSamples As Database
Dim rsSample1 As Recordset
Dim rsSample2 As Recordset
Dim rsParameters As Recordset
Dim dMinimalMatchingRate As Double
Set dbSamples = CurrentDb
Set rsSample1 = dbSamples.OpenRecordset("SELECT * FROM SampleNames")
If Not rsSample1.EOF Then
rsSample1.MoveLast
Texto23 = rsSample1.RecordCount
Else
Texto23 = "0"
End If
Set rsSample2 = dbSamples.OpenRecordset("SELECT * FROM SampleComparisons")
If Not rsSample2.EOF Then
rsSample2.MoveLast
Texto11 = rsSample2.RecordCount
Else
Texto11 = 0
End If
rsSample2.Close
Set rsParameters = dbSamples.OpenRecordset("Parameters")
dMinimalMatchingRate = rsParameters("MinMatchingRate")
tMinMR = rsParameters("MinMatchingRate")
tMaxSN = rsParameters("MaxSampleNumber")
Set rsSample2 = dbSamples.OpenRecordset("SELECT * FROM SampleComparisons WHERE
MatchingRate>" & dMinimalMatchingRate)
If Not rsSample2.EOF Then
rsSample2.MoveLast
Texto9 = rsSample2.RecordCount
Else
Texto9 = 0
End If
rsSample2.Close
rsSample1.Close
dbSamples.Close
End Sub
39
7.Resultats
S’han analitzat tres tipus de fitxers de resultats, els generats per la màquina Arduino, els
resultats de substàncies simples provinents d’anàlisis d’espectrometria de masses i els
resultats de proteïnes individuals també realitzats amb EM.
Resultats de la màquina Arduino
Els resultats de l’adquisició de dades de la màquina Arduino amb un sensor de so varen
resultar, al principi, poc acurades. Les sèries de dades obtingudes no eren prou
representatives dels sons registrats.
La raó d’aquesta manca de coincidència es va trobar en la baixa sensibilitat dels sensors
de so emprats.
Les dades es van registrar, al principi, en dos sensors diferents. Aquests tenien molt poca
sensibilitat, el que feia que grans diferències en el volum registrat provoquessin uns
valors molt propers. Això feia que les diferències entre els sons alts i baixos no fossin
prou significatius com per a poder relacionar espectres similars.
Per a solucionar-ho, es va emprar un sensor de so de més alta qualitat, el qual va oferir
uns registres molt més acurats gràcies a que l’amplitud de sensibilitat era molt més alta.
Un cop solucionat el problema de la manca de sensibilitat, es va detectar un altre efecte
que va haver de ser estudiat en profunditat: les dades sovint no eren comparables per
raons de manca de sincronisme entre elles: va resultar força difícil fer coincidir el principi
exacte d’una cançó amb d’altres.
Per a entendre aquest efecte cal recordar la naturalesa de les dades enregistrades.
Un so és un esdeveniment analògic, mentre que en ordinador emmagatzema valors
digitals, és a dir, numèrics. De fet, l’anàlisi posterior del resultats ha de ser numèrica,
d’aquí la necessitat de digitalitzar uns resultats analògics. Com s’ha explicat abans, la
digitalització és tan més acurada com més alta és la freqüència d’enregistrament. En el
cas d’aquest treball, per raons de capacitat de la mateixa màquina, la freqüència del
rellotge va ser de 1/50 ms.
40
Addicionalment, també es va comprovar que el valor base d’un fitxer de so, és a dir, la
línia basal corresponent al silenci, no sempre coincidia.
Com a exemple de mostra enregistrada amb la placa Arduino, veure la següent figura:
Figura 15. Mostra del sensor de so de la placa Arduino.
Per a aconseguir una més alta comparabilitat de les mostres, es decidir emprar una
normalització en dues fases:
- Identificació del punt exacte d’inici d’una cançó. El fet de comparar una sèrie de
dades amb una altra on el punt d’inici no fos coincident provocava que hi hagués
un desfasament entre les dades de dues lectures, que, a la llarga, no feia possible
la comparació. De forma manual, es va identificar el valor inicial de cada sèrie
per a poder truncar-la a partir d’aquest valor.
- Normalització de les dades per a garantir la seva homogeneïtat. Es va emprar,
com abans s’ha explicat, la fórmula:
𝑋𝑋′𝑖𝑖 =𝑋𝑋𝑖𝑖 − 𝑀𝑀𝑖𝑖𝑀𝑀(𝑋𝑋𝑖𝑖)
𝑀𝑀𝑀𝑀𝑀𝑀(𝑋𝑋𝑖𝑖) −𝑀𝑀𝑖𝑖𝑀𝑀(𝑋𝑋𝑖𝑖)
Les dades varen ser transformades amb la fórmula Excel:
=(B2-MIN($B$2:$B$2392))/(MAX($B$2:$B$2392)-MIN($B$2:$B$2392))
on B era la columna on restaven les dades.
Aquesta transformació de variable ens va donar una col·lecció de dades entre 0 i 1, el
que feia que tots els enregistraments fossin comparables de manera més confiable.
Un cop fetes algunes comparacions, es va veure que les comparacions entre cançons
diferents tenien unes taxes de comparació molt properes a 0, mentre que algunes de les
41
mostres que corresponien a cançons ja presents a la base de dades, un cop
normalitzades, registraven unes taxes de comparació de fins a 0.76 sobre un màxim de
1.
Figura 16. Resultat d’una mostra identificada pel sistema.
Altre mostres, però, varen donar resultats significativament més baixos, pel que està
clar que les mostres amb taxes de comparació baixes corresponen a enregistraments
amb asincronia amb la mostra original.
Davant aquests resultats, sembla que la tècnica de comparació per a aquests tipus de
fitxers pot resultar adient sempre i quan el mètode d’enregistrament sigui prou acurat i
fet amb eines de qualitat.
42
Resultats amb substàncies simples analitzades amb EM
Un cop vist que les mostres enregistrades amb un sensor de so no eren les més adients
per a validar l’algorisme proposat, es va decidir aconseguir mostres analitzades realment
amb un espectròmetre de masses. Per a començar, es varen utilitzar substàncies simples
que tinguessin resultats gràfics molt senzills. Aquestes mostres es varen aconseguir de
diverses webs (veure punt 13 de la bibliografia), i inclouen substàncies com ara
Ciclopentà, Diòxid de carboni, Zinc, Zirconi, etc.
Aquestes mostres varen ser fàcilment identificades pel sistema al ser força simples.
Un exemple d’aquest tipus de mostra es pot trobar més a dalt, a la pàgina 16. El resultat
de les comparacions entre les mostres preidentificades i les mostres problema va ser de
taxes molt properes a 1, del voltant de 0,99.
Exemple de mostra identificada:
Figura 17. Resultat d’una substància simple identificada pel sistema.
Donats aquest resultats, sembla que l’algorisme d’identificació de l’aplicació P.I.
funcionava força be per a establir relacions de comparació entre mostres simples.
43
Resultats amb proteïnes analitzades amb EM
L’estudi de proteïnes mitjançant l’EM no és tan simple com ara el cas anterior. El seu
estudi requereix, com abans s’ha dit, de la fragmentació de les proteïnes amb tripsina
per a facilitar la identificació dels pèptids més petits.
Els resultats d’una de les anàlisis es mostra en la figura següent:
Figura 18. Resultat de la identificació d’una proteïna.
En aquest cas, el sistema indica que no existeix una mostra al sistema, tot i que
correspon a una proteïna idèntica a la emmagatzemada a la base de dades, ja que el
coeficient de correlació entre les mostres és inferior al nivell de tall definit a la
configuració de l’aplicació. Això s’estima que és debut a que alguns dels pèptids presents
a una mostra no ho estan a l’altre (cada pèptid està representat per un pic a una posició
concreta de l’eix d’abscisses, és a dir, a un relació m/z donada), i l’error comés fa que
calgui baixar el llindar a uns nivells de confiança més baixos. En aquest cas, es va decidir
baixar aquest llindar a un valor de 0,45.
Una de les conseqüències d’aquests resultats és que l’algorisme s’hauria de modificar
per a aconseguir una taxa de comparació més alta, incorporant-hi el fet de que alguns
pèptids poden no ser presents a una mostra però si a un altre.
44
8.Conclusions
-S’ha programat un software capaç d’identificar mostres orgàniques simples i proteïnes.
Tot i així, a l’hora d’identificar microorganismes, al haver de tallar-los amb tripsina, la
irregularitat d’aquests talls impedeix que diferents mostres siguin iguals (pot presentar
altres pics a demés dels importants), dificultant així les comparacions. En qualsevol cas,
sembla perfectament factible emprar aquests tipus d’algorismes matemàtics per a la
identificació d’organismes simples.
Un bacteri, per exemple, pot arribar a produir fins a 4000 proteïnes al llarg de la seva
vida. Afortunadament per a la seva identificació, no totes les produeix al mateix temps.
Això fa que, tot i la dificultat d’adaptació de l’algorisme proposat, pugui ser un punt de
partida per a crear un mètode d’identificació ràpid i fiable de microorganismes, de l’odre
d’alguns minuts, davant de temps d’entre dos i cinc dies, com és el cas ara mateix en els
laboratoris d’identificació microbians.
-La màquina Arduino, en un principi, i degut a la poca sensibilitat dels sensors de so, no
era capaç de fer espectres de masses amb una certa repetibilitat com per a poder
comparar-los. Després de provar un sensor amb millor sensibilitat, el problema era
normalitzar les dades, que es va poder aconseguir la fórmula mostrada als resultats.
-S’ha observat i explicat el procés que porta a terme l’espectròmetre de masses per a
fer una empremta peptídica a partir d’un microorganisme, i s’ha aplicat per a poder
desenvolupar el software.
45
9.Annexos
Annex I. Cronologia El 1838, el nom Proteïna (del grec proteios, "primer") va ser suggerit per Jöns
Jacob Berzelius per a la substància complexa rica en nitrogen trobada en les
cèl·lules de tots els animals i vegetals.
1819-1904 es descobreixen la major part dels 20 aminoàcids comuns en les
proteïnes.
1864 Felix Hoppe-Seyler cristal·litza per primera vegada i posa nom a
l'hemoglobina.
1894 Hermann Emil Fischer proposa una analogia clau i pany per a les
interaccions enzim-substrat.
1897, Buchner i Buchner van demostrar que els extractes exempts de cèl·lules de
llevat poden fermentar la sacarosa per formar diòxid de carboni i etanol, per tant
van establir les bases de la enzimologia.
1926 James Batcheller Sumner va cristal·litzar ureasa en forma pura, i va
demostrar que les proteïnes poden tenir activitat catalítica d'enzims. Svedberg
va desenvolupar la primera centrifugadora analítica i la va utilitzar per calcular el
pes molecular de l'hemoglobina.
1933 Arne Wilhelm Kaurin Tiselius va introduir l'electroforesi per separar les
proteïnes en solució.
1934 Bernal i Crowfoot van preparar els primers patrons detallats d'una proteïna
per difracció de raigs X, obtinguts a partir de cristalls de l'enzim pepsina.
1942 Archer John Porter Martin i Richard LM Synge van desenvolupar la
cromatografia, una tècnica que ara s'utilitza per separar proteïnes.
1951 Linus Carl Pauling I Robert Corey proposar l'estructura d'una conformació
helicoïdal d'una cadena d'aminoàcids -la hèlix α- i l'estructura de la làmina β, les
quals van ser trobades posteriorment en moltes proteïnes.
1955 Frederick Sanger determina per primera vegada la seqüència d'aminoàcids
d'una proteïna (insulina).
46
1956 Vernon Ingram va produir la primera empremta proteica i va demostrar
que la diferència entre l'hemoglobina de l'anèmia falciforme i l'hemoglobina
normal es deu al canvi d'un sol aminoàcid.
1960 John Kendrew va descriure la primera estructura tridimensional detallada
d'una proteïna (la mioglobina l'esperma de la balena) amb una resolució de 0,2
nm, i Perutz va proposar una estructura de resolució molt més baixa per
l'hemoglobina.
1963 Monod, Jacob i Changeux reconèixer que molts enzims es regulen per mitjà
de canvis al·lostèrics en la seva conformació.
1995 Marc R. Wilkins va encunyar el terme Proteoma a la totalitat de proteïnes
presents en una cèl·lula.
47
Annex II. Proteïnes
Les proteïnes
Les proteïnes estan formades per aminoàcids. Tot i que, fins fa poc, es pensava que els
essers vius sintetitzaven proteïnes a partir de només 20 aminoàcids, els darrers anys
s’han trobat dos més (la selenocisteina i la pirrolisina) que fan que els científics hagin de
replantejar-ne el codi genètic.
Els aminoàcids més freqüents i de major interès són aquells que formen part de les
proteïnes. Dos aminoàcids es combinen en una reacció de condensació entre el grup
amino d'un i el carboxil de l'altre, alliberant una molècula d'aigua i formant un enllaç
amida que s'anomena enllaç peptídic; aquests dos "residus" d'aminoàcid formen un
dipèptid. Si s'uneix un tercer aminoàcid es forma un tripèptid i així, successivament, fins
a formar un polipèptid. Aquesta reacció té lloc de manera natural dins de les cèl·lules,
en els ribosomes. Tots els aminoàcids components de les proteïnes són L-alfa-
aminoàcids. Això vol dir que el grup amino està unit al carboni contigu al grup carboxil
(carboni alfa) o, dit d'una altra manera, que tant el carboxil com el amino estan units al
mateix carboni; a més, a aquest carboni alfa s'uneixen un hidrogen i una cadena
(habitualment anomenada cadena lateral o radical R) d'estructura variable, que
determina la identitat i les propietats de cada un dels diferents aminoàcids. Hi ha
centenars de radicals pel que es coneixen centenars d'aminoàcids diferents, però només
22 (els dos últims van ser descoberts l'any 2002) formen part de les proteïnes i tenen
codons específics en el codi genètic. La unió de diversos aminoàcids dóna lloc a cadenes
anomenades pèptids o polipèptids, que es diuen proteïnes quan la cadena polipeptídica
supera una certa longitud (entre 50 i 100 residus aminoàcids, depenent dels autors) o la
massa molecular total supera les 5000 uma i, especialment, quan tenen una estructura
tridimensional estable definida.
Estructura: L'estructura general d'un alfa-aminoàcid s'estableix per la presència d'un
carboni central (alfa) unit a un grup carboxil, un grup amino, un hidrogen i la cadena
lateral.
48
Tant el carboxil com l’amino són grups funcionals susceptibles d ‘ionització depenent
dels canvis de pH, per això cap aminoàcid en dissolució es troba realment en la forma
normalment representada, sinó que es troba ionitzat
A pH baix (àcid), els aminoàcids es troben majoritàriament en la seva forma catiònica
(amb càrrega positiva), mentre que a pH alt (bàsic) es troben en la seva forma aniònica
(amb càrrega negativa). Per a valors de pH intermedis, com els propis dels mitjans
biològics, els aminoàcids es poden trobar en una forma d'ió dipolar o zwitterions (amb
un grup catiònic i un altre aniònic).
Els 22 aminoàcids que formen part de les proteïnes són:
Núm Nom Abreviatura
1 Valina Val, V
2 Leucina Leu, L
3 Treonina Thr, T
4 Lisina Lys, K
5 Triptòfan Trp, W
6 Histidina His, H
7 Fenilalanina Phe, F
8 Isoleucina Ile, I
9 Arginina Arg, R
10 Metionina Met, M
11 Alanina Ala, A
49
12 Prolina Pro, P
13 Glicina Gly, G
14 Serina Ser, S
15 Cisteína Cys, C
16 Asparagina Asn, N
17 Glutamina Gln, Q
18 Tirosina Tyr, Y
19 Àcid Aspàrtic Asp, D
20 Àcid Glutàmic Glu, E
21 Selenocisteina Sec, U
22 Pirrolisina Pyl, O
Figura 19. Els 22 aminoàcids descrits i les seves abreviatures.
D’acord a la seva cadena lateral, els aminoàcids es poden dividir en:
Figura 20. Divisió dels aminoàcids en funció de la seva cadena lateral.
50
Classificació de les proteïnes
Per les seves propietats fisico-químiques, les proteïnes es poden classificar en:
Proteïnes simples (holoproteids), formades solament per aminoàcids i derivats
Proteïnes conjugades (heteroproteids), formades per aminoàcids acompanyats
de substancies diverses
Proteïnes derivades, substancies formades per desnaturalització i desdoblament
de les proteïnes.
Les proteïnes són necessàries per a la vida sobretot per la seva funció plàstica
(constitueixen el 75-80% del protoplasma deshidratat de la cèl·lula), però també per les
seves funcions biorreguladores (formen part dels enzims) i de defensa (els anticossos
són proteïnes). Les proteïnes tenen un paper fonamental per a la vida i són les
biomolècules més versàtils i diverses. Són imprescindibles per al creixement de
l'organisme i fan una enorme quantitat de funcions diferents.
Les proteïnes de tots els éssers vius estan determinades majoritàriament per la seva
genètica (amb excepció d'alguns pèptids antimicrobians de síntesi no-ribosomal), és a
dir, la informació genètica determina en gran mesura quines proteïnes té una cèl·lula,
un teixit i un organisme.
Les proteïnes es sintetitzen depenent de com es trobin regulats els gens que les
codifiquen. Per tant, són susceptibles a senyals o factors externs. El conjunt de les
proteïnes expressades en una circumstància determinada s’anomena proteoma.
Funcions de les proteïnes
Les proteïnes ocupen un lloc de màxima importància entre les molècules constituents
dels éssers vius (biomolècules). Pràcticament tots els processos biològics depenen de la
presència o l'activitat d'aquest tipus de molècules. N'hi ha prou amb alguns exemples
per fer-nos una idea de la varietat i transcendència de les funcions que exerceixen. Són
proteïnes:
Gairebé tots els enzims, catalitzadors de reaccions químiques en organismes vius 51
Moltes hormones, que regulen activitats cel·lulars
L'hemoglobina i altres molècules amb funcions de transport en la sang
Els anticossos, encarregats d'accions de defensa natural contra infeccions o
agents patògens
Protectora o defensiva (Ex: trombina i fibrinogen)
Els receptors de les cèl·lules, als quals es fixen molècules capaces de
desencadenar una resposta determinada
L'actina i la miosina, responsables de la contracció dels músculs
El col·lagen, integrant de fibres altament resistents en teixits de sosteniment
Funcions de reserva. Com l'ovoalbúmina en l'ou, o la caseïna en la llet
Homeostàtica: col·laboren en el manteniment del pH (ja que actuen com un
tampó químic)
Transducció de senyals, per exemple, la rodopsina
Totes les proteïnes realitzen funcions elementals per a la vida cel·lular, però a més
cadascuna d'aquestes té una funció més específica de cara al nostre organisme.
A causa de les seves funcions, es poden classificar en:
1. Catalítiques: Aquesta funció és desenvolupada per enzims proteics que
s'encarreguen de realitzar reaccions químiques d'una manera més ràpida i
eficient. Es tracta de processos que resulten de gran importància per a
l'organisme. Per exemple, podem citar la pepsina, un enzim que es troba en el
sistema digestiu i s'encarrega de degradar els aliments.
2. Reguladores: Les hormones són un tipus de proteïnes les quals ajuden a que hi
hagi un equilibri entre les funcions que realitza el cos. Un exemple és el cas de la
insulina que s'encarrega de regular la glucosa que es troba a la sang.
3. Estructurals: Aquest tipus de proteïnes tenen la funció de donar resistència i
elasticitat que, a la fi, permet formar teixits així com la de donar suport a altres
estructures. Aquest és el cas de la tubulina que es troba en el citoesquelet.
4. Defensives: Són les encarregades de defensar l'organisme. Per exemple, les
glicoproteïnes que s'encarreguen de produir immunoglobulines que defensen
l'organisme contra cossos estranys, o la queratina que protegeix la pell, així com
el fibrinogen o la protrombina que formen els coàguls. 52
5. Transport: La funció d'aquestes proteïnes és portar substàncies a través de
l'organisme allà on es necessitin. Per exemple, proteïnes com ara l’hemoglobina
que porta l'oxigen a través de la sang.
6. Receptores: Aquest tipus de proteïnes es troben a la membrana cel·lular i porten
a terme la funció de rebre senyals perquè la cèl·lula pugui realitzar la seva funció,
com l’acetilcolina que rep senyals per produir la contracció dels músculs
(realitzada per altres proteïnes estructurals, l’actina i la miosina).
53
Estructura de les proteïnes
L’estructura d’una proteïna és la manera com s'organitza una
proteïna per adquirir certa forma. D’entrada, les proteïnes
presenten una disposició característica en condicions fisiològiques,
però si es canvien aquestes condicions, com temperatura o pH, la
proteïna perd la conformació i també la seva funció, procés
anomenat desnaturalització. La funció depèn de la conformació i
aquesta ve determinada per la seqüència d'aminoàcids i la relació
físico-química entre aquests. Per a l'estudi de l'estructura és
freqüent considerar una divisió en quatre nivells d'organització, tot
i que el quart no sempre està present.
Figura 21. Les quatre estructures de les proteïnes..
- Estructura primària: és la forma d'organització més bàsica de les proteïnes.
Aquest tipus d'estructura de les proteïnes està determinada per la seqüència
d'aminoàcids de la cadena proteica, és a dir, el nombre d'aminoàcids presents i
l'ordre en què estan enllaçats per mitjà d'enllaços peptídics. Les cadenes laterals
Hèlix alfa: En aquesta estructura la cadena polipeptídica es desenvolupa en espiral sobre si mateixa a causa dels girs produïts entorn del carboni beta de cada aminoàcid. Aquesta estructura es manté gràcies als enllaços d'hidrogen intracatenaris formats entre el grup-C = O de l'aminoàcid "n" i el-NH de l'"n +4" (quatre aminoàcids més endavant en la cadena). Un exemple particular és la Hèlix de col·lagen: una varietat particular de l'estructura secundària, característica del col·lagen, proteïna present en tendons i teixit connectiu. Existeixen altres tipus d'hèlixs: Hèlix 310 (ponts d'hidrogen entre els aminoàcids "n" i "n +3 ") i hèlix Π (ponts d'hidrogen entre els aminoàcids" n "i" n +5 "), però són molt menys usuals.
54
dels aminoàcids s'estenen a partir d'una cadena principal. Per convenció,
(coincidint amb el sentit de síntesi natural en RER) l'ordre d'escriptura és sempre
des del grup amino-terminal fins al carboxi-terminal.
- Estructura secundària: és el plegament regular local entre residus aminoacídics
propers a aquesta cadena polipeptídica. Aquest tipus d'estructura de les
proteïnes s'adopta gràcies a la formació d'enllaços d’hidrogen entre els grups
carbonil (-CO-) i amino (-NH-) dels carbonis involucrats en les unions peptídiques
d'aminoàcids propers a la cadena. Es freqüent que aquesta estructura formi una
mena d’espiral anomenada hèlix alfa (veure quadre).
- Estructura terciària: està assegurada per quatre classes d'interaccions: enllaços
ponts disulfur entre cisteïnes, ponts d'hidrogen entre cadenes laterals,
interaccions iòniques, interaccions de Van der Waals, i l'efecte hidròfob (exclusió
de les molècules d'aigua evitant el seu contacte amb els residus hidròfobs, que
queden empaquetats a l'interior de l'estructura). Les interaccions entre les
cadenes laterals dels residus de la proteïna dirigeixen al polipèptid per constituir
una estructura compacta. Pel que fa als nivells de l'estructura de les proteïnes,
pot tenir una forma més àmplia que el normal.
Comprèn la gamma de proteïnes oligocèniques, és a
dir aquelles proteïnes que consten amb més d'una
cadena polipeptídica, en la qual a més pot existir un
comportament al·lostèric segons el mètode concertat
de Jacques Monod.
- Estructura quaternària: deriva de la conjunció de
diverses cadenes d’aminoàcids que, gràcies a la seva
unió, realitzen el procés de la disjunció, donant així un
resultat favorable davant les proteïnes ja
incrementades. A través de l'organització proteica
quaternària es formen estructures de gran importància biològica com els
microtúbuls, microfilaments, capsòmers de virus i complexos enzimàtics. També
les fibres del col·lagen trobades en l'espai extracel·lular del teixit conjuntiu estan
constituïdes per l'agregació de cadenes polipeptídiques de tropocol·lagen. En
Full plegat beta: Quan la cadena principal s'estira al màxim que permeten els seus enllaços covalents s'adopta una configuració espacial anomenada cadena beta. Algunes regions de proteïnes adopten una estructura en ziga-zaga i s'associen entre si establint unions mitjançant enllaços d'hidrogen intracatenaris. Tots els enllaços peptídics participen en aquests enllaços creuats, conferint així gran estabilitat a l'estructura. La forma en beta és una conformació simple formada per dues o més cadenes polipeptídiques paral·leles (que corren en el mateix sentit) o antiparal·leles (que corren en direccions oposades) i s'adossen estretament per mitjà de ponts d'hidrogen i diversos arranjaments entre els radicals lliures dels aminoàcids. Aquesta conformació té una estructura laminar i plegada, a la manera d'un acordió.
55
general, l'estructura quaternària dóna la funció de la proteïna, però hi ha
exemples de proteïnes actives fora del seu complex quaternari. Arranjaments de
subunitats poden conferir al complex quaternari o punt d'eix de simetria, però
això no és obligatori. L’al·losterisme tracta de la regulació enzimàtica de les
propietats d'una proteïna multimèrica. L’hemoglobina proporciona un exemple
ben estudiat, però no és l'únic.
La conformació espaial d'una proteïna està determinada per l'estructura secundària i
terciària. L'associació de diverses cadenes polipeptídiques origina un nivell superior
d'organització, l’estructura quaternària.
L'estructura secundària va ser introduïda per Kaj Ulrik
Linderstrom-Lang a la Universitat de Stanford el 1952. Es
denomina estructura terciària d'una proteïna a la distribució
tridimensional de tots els àtoms que constitueixen la proteïna.
Es pot afirmar que de l'estructura terciària deriven les
propietats biològiques d'aquestes, ja que la disposició en l'espai dels diferents grups
funcionals de la proteïna, condiciona la seva capacitat d'interacció amb altres grups
lligands. D'aquesta manera, l'estructura primària (seqüència d'aminoàcids) de la
proteïna determina l'estructura terciària. L'estructura terciària d'una proteïna està
generalment conformada per diversos trams amb estructures secundàries diferents. Pel
que fa als nivells de l'estructura de les proteïnes, en la estructura terciària generalment
els aminoàcids apolars se situen cap a l'interior de la proteïna i els polars cap a l'exterior,
de manera que puguin interactuar amb l'aigua circumdant. En el cas de proteïnes
integrals de membrana, els aminoàcids hidrofòbics queden exposats a l'interior de la
bicapa lipídica. Per tant, aquest tipus d'estructura és la que li dóna a la proteïnes seves
particularitats fisicoquímiques com ara la polaritat o apolaritat de la molècula.
Girs beta: Seqüències de la cadena polipeptídica amb estructura alfa o beta, sovint estan connectades entre si per mitjà dels anomenats girs beta. Són seqüències curtes, amb una conformació característica que imposa un brusc gir de 180 graus a la cadena principal d'un polipèptid. Pauling va utilitzar la cristal·lografia de raigs X per deduir l'estructura secundària de les proteïnes.
56
Propietats de les proteïnes
Solubilitat: Es manté sempre que els enllaços forts i febles estiguin presents. Si
s'augmenta la temperatura i el pH es perd la solubilitat.
Capacitat electrolítica: Es determina mitjançant l'electroforesi, tècnica analítica
en la qual si les proteïnes es traslladen al pol positiu és perquè la seva molècula
té càrrega negativa i viceversa.
Especificitat: Cada proteïna té una funció específica que està determinada per la
seva estructura primària.
Amortidor de pH (conegut com a efecte tampó): Actuen com amortidors de pH
a causa del seu caràcter amfòter, és a dir, poden comportar-se com àcids (donant
electrons) o com a bases (acceptant electrons).
També es pot establir una classificació per a la seva forma:
- Fibroses: presenten cadenes polipeptídiques llargues i una estructura secundària
atípica. Són insolubles en aigua i en dissolucions aquoses. Alguns exemples
d'aquestes son queratina, col·lagen i fibrina.
- Globulars: es caracteritzen per doblegar les seves cadenes en una forma esfèrica
atapeïda o compacta deixant grups hidròfobs cap a dintre de la proteïna i grups
hidròfils cap a fora, el que fa que siguin solubles en dissolvents polars com
l'aigua. La majoria dels enzims, anticossos, algunes hormones i proteïnes de
transport, són exemples de proteïnes globulars.
- Mixtes: posseeix una part fibril·lar (comunament en el centre de la proteïna) i
una altra part globular (en els extrems).
O per la seva composició química:
- Simples: la seva hidròlisi només produeix aminoàcids. Exemples d'aquestes són
la insulina i el col·lagen (globulars i fibroses).
o Escleroproteïnes: Són essencialment insolubles, fibroses, amb un grau de
cristal·linitat relativament alt. Són resistents a l'acció de molts enzims i
57
exerceixen funcions estructurals en el regne animal. Els col·làgens
constitueixen el principal agent d'unió a l'os, el cartílag i el teixit
connectiu. Altres exemples són la queratina, la fibroïna i la sericina.
o Esferoproteïnes: Contenen molècules de forma més o menys esfèrica. Se
subdivideixen en cinc classes segons les seves solubilitat:
Albúmines: Solubles en aigua i solucions salines diluïdes.
Exemples: l'ovoalbúmina i la lactoalbúmina.
Globulines: Insolubles en aigua però solubles en solucions salines.
Exemples: miosina, immunoglobulines, lactoglobulines, glicina i
araquina.
Glutelines: Insolubles en aigua o solucions salines, però solubles
en mitjans àcids o bàsics. Exemples: les glutelines del blat.
Prolamines: Solubles en etanol al 50% -80%. Exemples: gliadina
del blat i zeïna del blat de moro.
Histones: són solubles en medis àcids.
- Conjugades
o Heteroproteïnes: la seva hidròlisi produeix aminoàcids i altres
substàncies no proteiques amb un grup prostètic.
58
El genoma
Els aminoàcids proteics, canònics o naturals són aquells que estan codificats en el
genoma; per a la majoria dels éssers vius són 20: alanina, arginina, asparagina,
Figura 22. Taula de correspondència codons-aminoàcids.
aspartat, cisteïna, fenilalanina, glicina, glutamat, glutamina, histidina, isoleucina,
leucina, lisina, metionina, prolina, serina, tirosina, treonina, triptòfan i valina. No obstant
això, hi ha excepcions: en alguns éssers vius el codi genètic té petites modificacions i pot
codificar altres aminoàcids. L'aminoàcid número 21 és la selenocisteïna, que apareix tant
en eucariotes com procariotes i arqueobacteris, i el nombre 22 és la pirrolisina que
apareix només en arqueobacteris.
Figura 23. Mecanismes de transcripció i traducció de les proteïnes.
59
Mecanisme de traducció del genoma i síntesi de proteïnes
Aquest mecanisme està dividit en dues fases:
- Transcripció de l’ADN. Quan una part de la informació continguda a la molècula
d’ADN cal que sigui utilitzada al citoplasma de la cèl·lula, aquest fragment és
transcrit a una petita molècula d’ARN anomenat missatger (ARNm). L’estructura
de l’ARNm és molt similar a la de l’ADN, llevat de la substitució d’una base, la
timina (T), per un altra, l’uracil (U). Els nucleòtids es van afegint un a un en
direcció 5’ a 3’, emprant com a motlle una sola de les cadenes de l’ADN original.
Una proteïna anomenada polimerasa es utilitzada com a catalitzador.
- Traducció de l’ARN. La informació genètica transportada per l’ARNm haurà de
ser traduïda al citoplasma per a un element anomenat ribosoma, corpuscle
format per un conjunt de proteïnes i una forma especial d’ARN anomenat ARN
ribosòmic. Dins del ribosoma es produeix un fenomen conegut com a
transcripció: una altre forma d’ARN, l’ARN de transferència (ARNt) reconeix la
seqüència de nucleòtids de l’ARNm en grups de 3. A cada grup de tres bases
(codó) de l’ARNm li correspon un aminoàcid específic que va enganxat a l’ARNt.
A la taula adjunta es pot veure la correspondència entre els diferents codons i
els aminoàcids. Existeixen codons que no tenen una correspondència amb cap
aminoàcid; alguns serveixen com a senyals d’aturada de la transcripció, com ara
els codons UAA, UGA o UAG (tot i que aquests últims, en algunes espècies de
bacteris i eucariotes, codifiquen uns aminoàcids recentment descoberts, la
pirrolisina i la selenocisteïna). Altres, fins i tot, no tenen una funció encara
determinada: són els anomenats introns. Aquest procés es veu complementat
amb d’altres que fan el procés de traducció més complex, i que poden provocar,
inclús, que una mateixa seqüència d’aminoàcids doni com a resultat proteïnes
diferents a causa de la seva forma de plegament, o mitjançant el procés de
splicing o tall de seqüències supernumeràries.
60
Annex III. Màquina Arduino.
Què és Arduino?
Arduino és una plataforma electrònica de codi obert, basada en un hardware i un
software molt senzills d’utilitzar i de baix cost. La placa Arduino, a través de sensors, és
capaç de recollir indicadors externs, interpretar-los i convertir-los en senyals que
permeten controlar llums, motors i altres actuadors.
Placa Arduino Uno
La placa Arduino Uno, utilitzada aquí, està constituïda per a una placa base, un
microprocessador ATmega328, amb 14 entrades/sortides digitals i analògiques (6 dels
quals es podem utilitzar com a sortides PWM), un ressonador de 16 MHz, una connexió
USB, un capçal ICSP, un jack de corrent i un botó de reset. Existeixen diverses revisions
de la placa (la revisió actual al mercat és la 3), que es diferencien de les anteriors en
determinats components que han anat optimitzant o incorporant a la màquina.
Figura 24. Arduino Uno.
61
Annex IV. Glossari.
Microcontrolador
Un microcontrolador és un circuit integrat programable
Circuit imprès
Un circuit imprès és una petita pastilla d’un material semiconductor, sobre la que es
fabriquen circuits electrònics.
Plataforma Wiring
Una plataforma Wiring és un entorn de programació (programming framework) per a
microcontroladors. Wiring permet escriure software independent de la plataforma per
a controlar dispositius de qualsevol placa amb microcontroladors.
Codi obert
El concepte codi obert es refereix al software desenvolupat i distribuït lliurement. La
seva avantatge fonamental no és tant la seva gratuïtat, com la possibilitat d’accedir al
codi font per a tal de poder adaptar un determinat software a una aplicació pròpia.
Arduino
Arduino va ser un rei d’Itàlia del segle XI. A la ciutat d’Ivrea (Itàlia), a prop de l’Institut
IVREA, hi havia un bar anomenat Bar di Re Arduino (Bar del Rei Arduino), on Massimo
Benzi, un del creadors de la màquina, passava moltes hores – potser més de les
estrictament necessàries. A l’hora de posar un nom a la seva màquina, la va batejar amb
aquest nom en homenatge a aquest bar (no en homenatge al rei).
PWM
PWM són les sigles de Pulse Width Modulation (Modulació per Amples de Pulsos). Te
moltes aplicacions en electrònica, pero aqui és utilitzada per codificar informació per a
la seva transmissió.
Proteïna
Les proteïnes son molècules formades per cadenes d’aminoàcids. El terme proteïna
prové del francès “protéine” i aquesta del grec “πρωτεῖος” (proteios), que significa
prominent, de primera qualitat.
Aminoàcid
62
Un aminoàcid és una molècula orgànica amb un grup amino (-NH2) i un grup carboxil (-
COOH).
Genoma
Es denomina Genoma d’una espècie al conjunt de la informació genètica, codificada en
una o varies molècules d’ADN (Àcid Desoxiribonucleic) (en molt poques espècies ARN),
on estan emmagatzemades les claus per a la diferenciació de les cèl·lules que formen
els diferents teixits i òrgans d’un individu.
Proteoma
El conjunt de les proteïnes expressades en una circumstància determinada. El terme
“proteoma” es va utilitzar per primera vegada el 1995, per a descriure el conjunto de
proteïnes que s’expressen a partir d’un genoma.
Electroforesi
L'electroforesi consisteix en el transport de molècules sota l'acció d'un camp elèctric.
Espectrometria de masses
L’espectrometria de masses està basada en la obtenció d’ions a partir de molècules
orgàniques en fase gasosa; un cop obtinguts aquests ions, es separen d’acord a la seva
massa i la seva càrrega, i finalment es detecten a través d’un instrument adient,
l’espectròmetre de masses.
L’espectròmetre de masses es un instrument que permet analitzar amb gran precisió la
composició de diferents elements químics i isòtops atòmics, separant els nuclis atòmics
en funció de la seva relació càrrega-massa (z/m)2.
MALDI-TOF
MALDI-TOF es una tècnica d ’ionització suau utilitzada en espectrometria de masses. Es
denomina MALDI per a les seves sigles en anglès: Matrix-Assisted Laser
Desorption/Ionization i TOF pel detector d’ions que s’acobla al MALDI, el nom del qual
procedeix també de les seves sigles en anglès Time-Of-Flight.
Algorisme
Un algorisme és un conjunt finit d’instruccions que s’han de seguir per a resoldre un
problema.
Anàlisi de sèries temporals
2 La relació massa-càrrega d’una partícula resulta de dividir la seva massa entre la seva càrrega elèctrica. 63
Mètode estadístic que pretén fer possible la comparació de sèries numèriques
univariants. Les sèries que aquí es compararan podran temporalment regulars però no
normalitzades
64
10.Bibliografia
1. Sánchez, Ana M.; Fedriani, Eugenio. Redefiniendo la interpolación para el anàlisis
de series temporales irregulares. XVI Jornadas de ASEPUMA y IV. Encuentro
Internacional Rect@ Vol Actas_16 Issue 1:307. Universidad Pablo de Olavide.
Sevilla
2. Espectrometria de masas. Museo Nacional de Ciencias Naturales. CSIC. Madrid
3. Srinivasan, G. James, C. M. & Krzycki, J. A. Pyrrolysine encoded by UAG in
Archaea: charging of a UAG-decoding specialized tRNA. Science, 296, 1459 -
1462, (2002)
4. Félix Gil-Dones, Tatiana Martín-Rojas, Luis F. López-Almodovar, Rocío Juárez-
Tosina, Fernando de la Cuesta, Gloria Álvarez-Llamas, Sergio Alonso-Orgaz,
Fernando Vivanco, Luis Rodríguez-Padial, María G. Barderas. Obtención de un
protocolo óptimo para el análisis proteómico de válvulas aórticas humanas sanas
y estenóticas. Rev Esp Cardiol. 2010;63(01):46-53 - Vol. 63 Núm.01
5. Toomer, Gerald J. Al-Khwarazmi. Dictionary of Scientific Geography, 7. New York.
1970, pp 359 i ss.
6. Brassard, Gilles; Bratley, Paul. Fundamentos de Algoritmia. Madrid: Prentice Hall.
1997
7. Guía para la redacción de artículos científicos destinados a la publicación.
Segunda edición. Programa general de información y UNISIST. UNESCO. París,
maig de 1983.
8. Jean-Michel Claverie, Cedric Notredame. Bioinformatics for dummies. 2ª edició.
Indianapolis, Wiley Publishing Inc. 2007.
9. Joan Ribas Lequerica. Arduino Práctico. Madrid, Anaya multimèdia. Agost 2013.
10. Josip Lovrić. Introducing Proteomics from concepts to sample separation, mass
spectometry and data analysis. Oxford, Regne Unit. Wiley-Blackwell. 2011.
11. Andros Corral. Fundamentos y funciones de la espectrometria de masas. Facultad
de farmàcia de la Universitat de Valènica. 2006.
12. Harvey, A. (1990). Forecasting, structural time series models and the Kalmanlter.
Cambridge University Press. New York
65
13. Hyper Physics. Mass Spectometry. [en línia ]. [Consulta: 3.9.2014].
http://hyperphysics.phy-astr.gsu.edu/hbase/magnetic/maspec.html
14. National Cancer Institute. Proteomics. [en línia]. [Consulta: 20.8.2014].
http://proteomics.cancer.gov/whatisproteomics
66