Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE...

19
Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE VARIABLES ESTADÍSTIQUES Objectius: En aquesta pràctica utilitzarem el programa SPSS per a descriure numèrica i gràficament les dades duna mostra. Es representaran gràficament conjunts de dades utilitzant les possibilitats del programa. S’analitzarà la relació lineal entre dues variables. Índex: 1. Taules de freqüències. 2. Gràfiques d’una variable: diagrames de barres i gràfics de sectors, histogrames, diagrames de tija i fulles, diagrames de caixa i bigots. 3. Anàlisi exploratori. 4. Gràfiques de dues variables: diagrames de dispersió. 5. Relació lineal: coeficient de correlació lineal i regressió per mínims quadrats.

Transcript of Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE...

Page 1: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2

REPRESENTACIONS GRÀFIQUES I

NUMÈRIQUES

DE VARIABLES ESTADÍSTIQUES

Objectius:

En aquesta pràctica utilitzarem el programa SPSS per a descriure numèrica i

gràficament les dades d’una mostra. Es representaran gràficament conjunts de dades

utilitzant les possibilitats del programa. S’analitzarà la relació lineal entre dues

variables.

Índex:

1. Taules de freqüències.

2. Gràfiques d’una variable: diagrames de barres i gràfics de sectors, histogrames,

diagrames de tija i fulles, diagrames de caixa i bigots.

3. Anàlisi exploratori.

4. Gràfiques de dues variables: diagrames de dispersió.

5. Relació lineal: coeficient de correlació lineal i regressió per mínims quadrats.

Page 2: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 2

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

1. Taules de freqüències

Una de les formes més simples de resumir la informació d’un conjunt de dades és

mitjançant una taula de freqüències, que consisteix en calcular per a cada valor d’una

variable el nombre (freqüència) de casos en què apareix.

Una taula de freqüències ha d’indicar el nom de la variable en el seu encapçalament, els

valors que pren la variable, la freqüència de cadascun d’ells i la suma de totes les

freqüències, que coincidirà amb el nombre total de casos vàlids. També és aconsellable

calcular les freqüències relatives, o proporcions, que resulten al dividir cada freqüència

per la suma total. SPSS genera taules de freqüències de forma automàtica.

En primer lloc necessitem obrir un banc de dades, per exemple el de l’arxiu Glucosa.sav

A continuació, amb el menú Analizar/Estadísticos descriptivos/Frecuencias es pot

obtindre la taula de freqüències associada a qualsevol de las variables:

En aquest quadre, a més de seleccionar

les variables per a les quals es volen

obtindre les taules de freqüències,

podem accedir a les següents opcions:

Estadísticos: proporciona les mesures de

localització i dispersió habituals.

Gráficos: Diagrames de Barres, de

Sectors i Histogrames.

Formato: per a la presentació de les

dades.

La taula para la variable cod_g1an obtinguda per SPSS és la següent:

cod_g1an

Frecuencia Porcentaje Porc. válido Porc. acumulado

Válidos bajo 8 10,0 10,0 10,0

medio 52 65,0 65,0 75,0

alto 17 21,3 21,3 96,3

muy alto 3 3,8 3,8 100,0

Total 80 100,0 100,0

A més de les freqüències, la taula ens indica que hi ha 80 casos vàlids i cap perdut, que

la variable cod_g1an té quatre valors possibles: baix, mitjà, alt i mol alt (en realitat

són les etiquetes associades als valors 1, 2, 3 i 4, respectivament).

Exercici 1.

1. Genera a partir de g1des la variable codificada cod_g1des, de forma idèntica a

com es va generar cod_g1an i la seua taula de freqüències.

2. Obtindre la taula de freqüències de la variable g1antes. Quina utilitat té aquesta

última taula? Raona la seua conveniència en aquest cas.

Page 3: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 3

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

SPSS també compta amb el menú Analizar/Tablas/Tablas personalizadas que

possibilita alterar el format del resultat.

A continuació anem a veure l’obtenció amb SPSS dels diferents estadístics associats a

una variable numèrica.

Recordem que els estadístics són valors calculats a partir de les dades d’una variable

quantitativa i que mesuren alguna de les característiques de la distribució mostral. Les

principals característiques són: tendència central, localització i dispersió.

Mesures/Estadístics de tendència central

S’utilitzen per a saber al voltant de quin valor central es distribueixen els valors d’una

variable. Les mesures més habituals són:

Mitjana: és la suma de totes les observacions dividida per la grandària de la

mostra.

Mediana: és el valor que divideix la mostra ordenada en dos meitats amb el

mateix nombre de dades.

Mitjana retallada: és una mitjana calculada després d’eliminar algunes dades

extremes. És més robusta que la mitjana ja que no té en compte els valors extrems.

Moda: és la dada que té la major freqüència. En cas d’empats poden haver-hi

diverses modes.

Mesures/Estadístics de localització

Són les que indiquen el valor que ocupa una determinada posició en una distribució.

La mesura més simple de localització és la mediana, que també és una mesura de

tendència central, ja que el 50% de les dades són menors o iguals que ella i l’altre 50%

són majors o iguals.

Els quartils Q1,Q2 i Q3, són tres valors que divideixen la distribució en quatre parts

iguals. El primer quartil té un 25% de casos menors o iguals que ell; el segon quartil

coincideix amb la mediana i el tercer quartil deixa un 25% de valors superiors o iguals a

ell. Per a obtindre’ls, es calcula primer les posicions dels quartils p(Q1) i p(Q3) i a partir

d’elles s’extrauen els valors corresponents. Les posicions del primer i tercer quartil (el

segon coincideix amb la mediana) són: p(Q1)=(n+1)/4 y p(Q3)=3(n+1)/4. Obtingudes

les posicions, si són senceres, es busquen els valors que les ocupen en la mostra

ordenada. Si p(Qx) dóna un valor decimal s’utilitza la fórmula següent:

fi vv )1(

on és la part fraccionària de p(Qx) i vi, vf els valors mostrals que ocupen les posicions

més pròximes per defecte i per excés a p(Qx), respectivament.

Els percentils divideixen la distribució en cent parts iguals. La forma de càlcul és

similar a la dels quartils.

Page 4: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 4

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

Mesures/Estadístics de dispersió

Les més utilitzades són:

Rang o amplària, que és la diferència entre el major i el menor valor de la

mostra.

Rang interquartílic, que és la diferència Q3-Q1. L’interval interquartílic, [Q1,Q3],

conté al 50% central dels valors de la mostra.

Variància (s2), que mesura la distància al quadrat de cada observació respecte de

la mitjana. La seua definició analítica és:

i

i

i

i xnxn

xxn

s )(1

1)(

1

1 2222

Desviació típica o estàndard (s), que és l’arrel quadrada positiva de la variància i

per tant té les mateixes unitats que la variable.

Per a obtindre els estadístics amb SPSS s’utilitzen fonamentalment dos menús. El

primer és molt bàsic Analizar/Estadísticos descriptivos/Descriptivos on s’ha de

seleccionar la variable o variables d’interès i després cal seleccionar Opciones per a

triar els estadístics que interessen (per defecte apareixen seleccionats la mitjana,

desviació típica, el mínim i el màxim. Tanmateix, amb aquest menú no es poden

obtindre els percentils. Per a obtindre’ls s’ha d’utilitzar el menú molt més complet

Analizar/Estadísticos descriptivos/Frecuencias i entrar en l’opció Estadísticos on es

seleccionen els percentils desitjats, aquest menú calcula per defecte les taules de

freqüències de totes les variables seleccionades.

Exercici 2.

Calcula la mitjana, rang, desviació estàndard, els quartils, rang interquartílic i els

percentils 30 i 80 de totes les variables de Glucosa.sav. Comenta els resultats, són tots

interessants? Quant val el rang interquartílic de la variable g1antes?

Page 5: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 5

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

2. Gràfiques d’una variable: diagrames de barres i gràfics de sectors,...

La utilització de gràfiques és necessària en Estadística. Es pretén resumir la informació

de la mostra de forma gràfica amb objectius de clarificació o per a emfatitzar i descobrir

determinades característiques que d’altra forma seria molt difícil apreciar. D’altra

banda, una gràfica sempre és més fàcil de comprendre que un conjunt d’estadístics. Per

exemple, podem donar una matriu de distàncies entre un conjunt de ciutats però encara

que tinguem aquesta precisa informació serà difícil que ens imaginem la seua

distribució geogràfica si no s’adjunta una gràfica.

Les gràfiques adequades per a representar variables discretes o categòriques són

diferents de les de les contínues i per tant separarem el seu estudi.

2.1 Gràfiques de variables discretes i categòriques

Les gràfiques més utilitzades en Estadística per a representar variables discretes o

categòriques són les gràfiques de sectors i els diagrames de barres.

Gràfiques de sectors

Una gràfica de sectors o gràfic de pastís consisteix en un cercle dividit en sectors de

grandària proporcional a la freqüència de cada valor de la variable. S’utilitzen quan hi

ha pocs valors que representar.

Per a obtindre una gràfica de sectors amb SPSS utilitzarem el menú Gráficos/Cuadros

de dialogo antiguos/Sectores i apareixerà el quadre de diàleg següent:

les opcions del qual passem a comentar.

Resúmens per a grups de casos

Genera una gràfica en la qual cada sector correspon a un valor de la variable

seleccionada. Després de polsar el botó Definir del quadre anterior sorgeix un quadre

de diàleg en el que apareix l’opció Los sectores representan, que determina com es

calcula la grandària de cada sector, i la variable seleccionada s’introdueix en el camp

Definir sectores por.

Per exemple, suposem que volem representar els valors de la variable cod_g1an en un

diagrama de sectors on els sectors representen el nombre de casos de cada categoria. La

gràfica de sectors seria:

Page 6: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 6

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

muy alto

alto

medio

bajo

cod_g1an

En la majoria de les gràfiques tenim la possibilitat d’utilitzar paneles (una quadrícula de

subgràfiques) per a facilitar la comparació de les dades de diversos grups. Les

subgràfiques pertanyen al mateix tipus de gràfica i comparteixen eixos, però cadascuna

d’elles correspon a un grup diferent d’una o més variables categòriques.

Així, per exemple, si volem comparar els

nivells de cod_g1an de las dones

embarassades amb els de les no

embarassades introduiríem la variable

cod_g1an en el camp Definir sectores

por i la variable embarazo en el camp

Panel por, per exemple en Filas:

El resultat és:

No

Si

em

ba

razo

: ¿e

stá

em

ba

raza

da

?

muy alto

alto

medio

bajo

cod_g1an

Page 7: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 7

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

Exercici 3.

Compara, utilitzant dues gràfiques de sectors, la variable cod_g1des, d’acord amb si

estan o no embarassades. Utilitza panel per columnes.

També és possible que els sectors representen el % de casos o la Suma de una variable

quantitativa per a cada valor de la variable en Definir sectores por:. Per exemple,

utilitzaríem aquesta última possibilitat si volem que els sectors representen la suma dels

valores de g1des en cada nivell de cod_g1an.

Es pot també editar la gràfica fent doble clic sobre ella, amb la possibilitat de canviar

colors, trames, separar sectors, etc., utilitzant els menús que apareixen a la finestra o al

fer clic amb el botó dret del ratolí. Així podríem obtindre:

33,75%

1721,25%

5265,0%

810,0%

muy alto

alto

medio

bajo

cod_g1an

Resúmens per a diverses variables

Permet que els sectors representen variables en compte de grups de casos. Cada sector

representa la suma dels valors dels seus casos.

Per exemple, les puntuacions de 10 alumnes a tres professors d’Estadística han sigut les

següents:

Prof1 Prof2 Prof3

7,5 6,3 8,1

6,8 5,5 7,9

6,5 5,0 7,0

9,5 7,0 8,5

6,0 4,2 5,0

8,1 6,8 7,0

5,0 3,5 5,0

8,3 7,5 8,5

6,0 6,5 8,0

5,5 4,0 6,0

Podem representar gràficament amb un diagrama de sectors la suma de les puntuacions

a aquests tres professors per a veure si difereixen molt i per a veure el suport relatiu.

Després d’introduir les dades en SPSS i triar l’opció que estem tractant, hem obtingut

Page 8: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 8

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

l’anterior gràfica de sectors, on s’observa, per exemple, que la suma de les puntuacions

al Prof2 és de 56,3 i que representen un 28,65% de la suma de totes les puntuacions (és

a dir el seu suport relatiu).

Valors individuals dels casos

Es resumeix una única variable, i els casos ja són valors agrupats de la variable. Cada

sector representa el valor d’un cas individual.

Amb

Gráficos/Cuadros_de

diálogo_antiguos/Inte

ractivas/Sectores podem obtindre

representacions amb

efectes més cridaners

com la que apareix a la

dreta on s’ha utilitzat

l’opció 3D.

Diagrames de barres

La construcció d’un diagrama de barres és molt simple:

A l’eix horitzontal es representen els valors d’una variable discreta o categòrica i

sobre cada valor s’alça un rectangle vertical, la base del qual està separada de les

contigües.

A l’eix vertical es representa una característica numèrica de la variable com el

nombre de casos, o bé una altra funció resum, que pot estar associada amb una altra

variable.

Els diagrames de barres permeten utilitzar un major nombre de valors que les gràfiques

de sectors. Són més flexibles que les gràfiques de sectors i, com elles, també es poden

aconseguir efectes especials com 3D, girs i il·luminacions.

Per a generar un diagrama de barres amb SPSS s’utilitzen els menús:

Gráficos/Cuadros_de_diálogo_antiguos/Barras o

Gráficos/Cuadros_de_diálogo_antiguos/Interactivas/Barras.

Page 9: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 9

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

Exercici 4.

Construeix un diagrama de barres associat a la variable cod_g1an com el de la figura

següent.

Les gràfiques de sectors i els diagrames de barres són els idonis per a representar

variables categòriques o discretes. Per a representar gràficament variables contínues

s’utilitzen diversos tipus de gràfiques: Histogrames, Diagrames de tija i fulla i

Diagrames de caixa i bigots. Estudiarem també els Diagrames de dispersió per a

representar conjuntament dues variables contínues.

2.2 Gràfiques de variables contínues

Histogrames

Semblants, en la forma, als diagrames de barres, però atenció: el seu ús es restringeix

únicament a les variables contínues. Els histogrames representen freqüències agrupades

d’una variable contínua. A diferència dels diagrames de barres, els histogrames

dibuixen rectangles units entre sí, indicant que existeix una continuïtat en la variable.

Els valors es representen en l’eix horitzontal el qual es divideix en intervals d’amplària

Page 10: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 10

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

constant (SPSS no permet alterar aquesta característica), sobre els quals s’alcen

rectangles d’altura proporcional a la seua freqüència. Per tant, les àrees dels rectangles

són proporcionals a les freqüències que representen.

Els histogrames es poden editar fent doble clic amb el botó esquerre del ratolí,

permetent alterar el nombre de classes, la seua amplària, etc. La gràfica d’un histograma

no és molt robusta i pot ser molt diferent per a les mateixes dades, simplement variant el

nombre d’intervals, i per tant l’elecció del nombre d’intervals ha de fer-se amb cura.

En la figura següent, l’histograma de l’esquerra s’ha obtingut amb el nombre d’intervals

fixat per defecte per SPSS. L’histograma de la dreta només té 10 intervals (fixats per

l’usuari). En ambdós casos s’ha superposat una corba normal amb mitjana i desviació

típica coincidents amb les de la mostra per a veure com s’ajusten.

Per a obtindre un histograma amb SPSS s’utilitzen els menús

Gráficos/Cuadros_de_diálogo_antiguos/Histograma o

Gráficos/Cuadros_de_diálogo antiguos/Interactivas/Histograma.

Podem utilitzar

paneles per a

comparar.

Així, per exemple, si

volem comparar els

nivells de g1des en

els dos grups de dones,

introduirem la variable

g1des en el camp

Variable i la variable

embarazo en el camp

Panel por, per exemple

en Filas, obtenim:

Diagrames de tija i fulles

Page 11: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 11

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

Es tracta de gràfiques construïdes amb números. Consten de dos elements: la tija i les

fulles. La tija està formada pel primer o primers dígits dels valors de la variable. Les

fulles estan formades pels dígits no representats en la tija i apareixen ordenades de

menor a major valor. D’aquesta forma, cada dada té associada una tija (compartida

possiblement per altres dades) i exactament una fulla. Les tijes amb més fulles

destacaran gràficament sobre les que en tenen menys. Ja que no hi ha regles definides,

ni fórmules, anem a fer un exemple amb unes quantes dades. Suposem que els valors

d’una variable pes representen el pes en kg de 20 individus:

68, 82, 70, 79, 101, 83, 95, 70, 88, 69, 78, 85, 92, 73, 82, 70, 84, 68, 82, 74

Agafant com fulla el dígit de les unitats i com tija les desenes, podríem construir el

diagrama següent:

tija|fulla

6 | 889

7 | 0003489

8 | 2223458

9 | 25

10 | 1

Diagrama de tija i fulles (pes).

A diferència de l’histograma, les dades

individuals no desapareixen. Així, és fàcil

veure que en la mostra hi ha només una

persona que supera els 100 kg i tres que

no arriben als 70 kg.

SPSS construeix gràfiques de tija i fulles amb el menú Analizar/Estadísticos

descriptivos/Explorar. La figura següent mostra un diagrama de tija i fulla de la

variable g1antes associat a les dones no embarassades

Els casos extrems són advertits per la

gràfica, hi ha dos casos extrems: un amb

valor menor o igual a 45 i un altre amb valor

major o igual a 106. També observem que

algunes tijes han sigut dividides en diverses

files (rangs 0-4 i 5-9). L’usuari no pot alterar

aquesta gràfica que, per eixe motiu, és més

robusta que l’histograma. Observem en la

llegenda que la tija (stem) té una amplària

(width) que val 10,0 en aquest cas, açò vol

dir que les tijes cal multiplicar-les per eixe

valor i sumar després la fulla per a obtindre

el valor original.

Page 12: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 12

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

Diagrames de caixa i bigots

A diferència de les altres gràfiques ja vistes, els diagrames de caixa i bigots fan èmfasi

en les mesures de posició. Són molt útils per a fer comparacions entre mostres de

diverses poblacions.

Un diagrama de caixa i bigots consisteix en un rectangle la longitud del qual és el rang

interquartílic, dividit per un segment al nivell de la mediana i complementat amb dues

línies (anomenades bigots) que ixen del centre dels extrems del rectangle i intenten

arribar als valors mínim i màxim observats. La longitud màxima d’un bigot és de 1,5

vegades el rang interquartílic i si hi ha valors que disten més de la caixa (anomenats

valors extrems/atípics o outliers), el bigot corresponent s’estén únicament fins al valor

més allunyat de la caixa que no siga extrem. Els valors extrems s’han de representar

aïlladament separats dels bigots. Per obtindre un diagrama de caixa directament amb

SPSS se selecciona el menú Gráficos/Cuadros_de_diálogo_antiguos/Diagrama de

cajas. Per exemple:

Cada grup de dones està representat per una caixa que mostra els nivells de g1des.

Es poden observar diferències en quant a la situació de la mediana i a la dispersió. Per

exemple, s’observa que en les dones no embarassades els nivells de g1des són

inferiors als de les dones embarassades i que presenten menor dispersió.

Observem aquí un cas extrem (representat per un punt negre), entre les dones no

embarassades, correspon al cas número 31. El gràfic també ens dona una idea de la

simetria de les dades. Per exemple, una mediana descentrada -dins del rectangle- ens

indicaria una asimetria. En aquest exemple podem dir que les distribucions són bastant

simètriques en els dos casos.

El diagrama de caixa pot ser editat per a la seua modificació, fent doble clic sobre els

seus elements. Es pot alterar títol, peu, anotacions, llegenda i els valors i etiquetes dels

eixos; els eixos, les línies de referència, l’escala, el color i trama de la caixa i els casos

extrems.

Page 13: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 13

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

Exercici 5.

Construeix dos histogrames de la variable g1antes, un per a les embarassades i un

altre per a les no embarassades.

Construeix un diagrama de tija i fulles de la variable g1des. Identifica els casos

extrems i els seus valors.

Construeix un diagrama de caixa de les sis variables contínues juntes. Interpreta els

resultats.

Construeix un diagrama de caixa de les sis variables contínues juntes i utilitzant com a

factor la variable embarazo. Interpreta els resultats.

Realitza histogrames, diagrames de tija i fulles i diagrames de caixa de dada parella de

variables: g1antes i g1des, g2antes i g2des, g3antes i g3des,

medantes i meddes, per als grups definits per la variable embarazo.

3. Anàlisi exploratori.

És possible analitzar exhaustivament les característiques de diverses variables utilitzant

la instrucció Analizar/Estadísticos_Descriptivos/Explorar. Per exemple amb l’arxiu

Glucosa.sav, podem analitzar les variables g1antes i g1des separant d’acord amb la

variable embarazo. Per a obtindre l’anàlisi en el quadre que s’obri:

Ara posem g1antes i g1des en la

llista de variables dependents i en la

llista de factors posem la variable

embarazo.

Notem que està sel·leccionada, per

defecte, l’opció Ambos, és a dir

obtindrem Estadístics i Gràfics.

El resultat és massa gran per a reportar-ho aquí, simplement comentar que cadascuna de

les variables dependents s’analitza per separat depenent de si la persona està

embarassada o no, obtenim gràfics de caixa i bigots com aquests:

Page 14: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 14

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

I tota mena d’estadístics. A més a més és possible generar més gràfics amb proves de

normalitat i histogrames sel·leccionant-ho amb el botó Gráficos. L’opció

Estadísticos serveix per a seleccionar alguns descriptius més..

4. Gràfiques de dues variables: Diagrames de dispersió

Quan tenim diverses variables contínues és interessant estudiar la possible relació entre

elles. Per exemple, es pot estudiar la relació entre pes i altura d’un determinat grup

d’individus, la renda per càpita i l’índex de mortalitat infantil per a un grup de països,

l’índex de sulfats en les aigües subterrànies i la producció agrícola d’una regió, etc.

La forma més senzilla d’observar com varien conjuntament dues variables contínues és

mitjançant una gràfica de dispersió o núvol de punts. Es representen ambdues variables

en un sistema de coordenades, amb una variable X en abscisses i l’altra Y en ordenades.

Per cada cas es representa el valor (X,Y) mitjançant un símbol que pot ser un cercle, un

quadrat, una estrella, etc. Els punts generen un núvol que gràficament pot revelar algun

tipus de relació com la lineal (si els punts tendeixen a posar-se al voltant d’una línia

recta), o d’altre tipus. El programa SPSS genera diagrames de dispersió triant

Gráficos/Cuadros_de_diálogo_antiguos/Dispersión/Puntos/Dispersión simple (hi ha

altres possibilitats), on apareix un quadre de diàleg en el qual es pot triar quina variable

ocuparà l’eix X i quina l’altre eix Y. Per exemple, les variables g1antes (en abscisses) i

g1des (en ordenades) de l’arxiu Glucosa.sav produeixen el següent diagrama de

dispersió:

Per aconseguir distingir, per

color, les dones embarassades de

les que no ho estan hem utilitzat

l’opció “Establecer marcas

por:” on hem triat la variable

embarazo.

Page 15: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 15

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

5. Relació lineal: coeficient de correlació lineal i regressió per mínims

quadrats.

Ja hem vist com generar una gràfica de dispersió, ara farem un ajust lineal per mínims

quadrats. Obrim l’arxiu Cerebros.sav on tenim 28 casos i tres variables: animal,

cerebro i cuerpo que indiquen, respectivament, el nom dels animals adults que

intervenen en l’estudi, el pes del seu cervell en grams i el pes del seu cos en quilograms.

Volem comparar el pes del cervell amb el pes del cos, per a la qual cosa generem una

gràfica de dispersió amb, per exemple, el pes del cos en abscisses.

No sembla que hi haja una bona relació lineal entre les 2 variables, podem fer un ajust

lineal amb Analizar/Regresión Lineal, obtenint entre altres coses:

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ.

de la estimación

1 ,005a ,000 -,038 1360,3393

a. Variables predictoras: (Constante), peso del cuerpo en Kg.

b. Variable dependiente: peso del cerebro en g.

Coeficientesa

Modelo

Coeficientes

no estandarizados Coeficientes tipificados

t Sig. B Error típ. Beta

1 (Constante) 576,372 265,912 2,168 ,040

peso del cuerpo en Kg. ,000 ,016 -,005 -,027 ,978

a. Variable dependiente: peso del cerebro en g.

Page 16: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 16

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

La taula Resumen del modelo ens diu que el coeficient de correlació lineal de Pearson

és 0,005 i el de determinació és inferior a una milésima. La recta ajustada per mínims

quadrats ens la dona la taula Coeficientes: El terme constant val 576,372 i el pendent

(coeficient de la variable “peso del cuerpo en Kg”) val 0,000, és a dir la recta que millor

s’ajusta a les dades és pràcticament horitzontal i talla a l’eix d’ordenades en el valor

576,372 gr.

Mirant la gràfica de dispersió observem que hi ha tres animals que podríem dir que són

atípics, d’una banda el Braquiosaurio té un pes descomunal i més encara si el

comparem juntament amb el pes del cervell, d’altra banda el dos elefants tenen un pes

del cervell exagerat comparat amb la resta d’animals. Anem a eliminar-los amb

Datos/Seleccionar casos i un filtre adequat (hi ha molts vàlids), per exemple “cerebro

<= 3000 & cuerpo <= 40000”. Tornem a fer l’anàlisi ara només amb 25 animals.

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

1 ,132a ,017 -,025 310,5060

a. Variables predictoras: (Constante), peso del cuerpo en Kg.

b. Variable dependiente: peso del cerebro en g.

Coeficientesa

Modelo

Coeficientes

no estandarizados

Coeficientes

tipificados

t Sig. B Error típ. Beta

1 (Constante) 237,746 65,405 3,635 ,001

peso del cuerpo en Kg. -,014 ,022 -,132 -,636 ,531

a. Variable dependiente: peso del cerebro en g.

Com veiem la qualitat de l’ajust és millor que abans però no massa: r = 0,132 i r2

=

0,017. Si observem el diagrama de dispersió d’aquests 25 punts, veiem que qualsevol

recta s’allunya bastant del núvol.

Page 17: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 17

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

Veiem que ara tenim dos

casos clarament atípics per pes

del cos, són els dinosauris

Triceratops i el

Diplodoco, també el

Hombre és un cas atípic pel

pes del cervell. Anem a

excloure als animals

prehistòrics i deixem al

Hombre. Apliquem un filtre

adequat per eliminar-los i

quedar-nos amb 23 casos.

Tornem a generar una gràfica

de dispersió.

El resultat obtingut és:

L’escala ha variat i per això

sembla que les dades són

diferents, però només ho

sembla.

L’anàlisi de regressió resulta en:

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ.

de la estimación

1 ,542a ,294 ,261 271,7717

a. Variables predictoras: (Constante), peso del cuerpo en Kg.

b. Variable dependiente: peso del cerebro en g.

Page 18: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 18

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

Coeficientesa

Modelo

Coeficientes

no estandarizados

Coeficientes

tipificados

t Sig. B Error típ. Beta

1 (Constante) 129,516 67,684 1,914 ,069

peso del cuerpo en Kg. 1,009 ,341 ,542 2,958 ,008

a. Variable dependiente: peso del cerebro en g.

La regressió lineal encara no és de bona qualitat tenim un coeficient de determinació r2

= 0,294 és a dir només el 29,4% de la variabilitat en el pes del cervell és explicat per la

regressió. L’últim intent és llevar el cas Hombre, què és un cas atípic i veure el que

passa amb la resta (22 casos únicament).

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ.

de la estimación

1 ,882a ,778 ,767 103,9922

Coeficientesa

Modelo

Coeficientes

no estandarizados

Coeficientes

tipificados

t Sig. B Error típ. Beta

1 (Constante) 68,659 26,472 2,594 ,017

peso del cuerpo en Kg. 1,096 ,131 ,882 8,380 ,000

Ara tenim un coeficient de correlació r = 0,882 i de determinació r2 = 0,778. És a dir per

als 22 mamífers que hem deixat podem dir que hi ha una bona correlació lineal entre les

dues variables analitzades.

Page 19: Pràctica 2 REPRESENTACIONS GRÀFIQUES I NUMÈRIQUES DE ...montes/NHD/practiques/Practica_2_Val.pdf · Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques

Pràctica 2. Representacions gràfiques i numèriques de variables estadístiques 19

Pràctiques d’Estadística – Graus de la Fac. de Farmàcia. Dep. d'Estadística i I. O.. Universitat de València

La recta de mínims quadrats és

Y = 68,659+1,096·X on Y és el

pes el cervell en grams i X és pes

del cos en quilograms. Per tant a

un increment de 1 quilogram en

el pes del cos correspon

aproximadament 1 gram

d’increment en el pes del cervell.

La predicció sobre el pes del

cervell d’un animal que pesara

300 Kg, com una zebra, seria

68,659 1,096 300 397,46y

grams aproximadament. Per

contra, no seria vàlid intentar

donar una predicció sobre el pes

del cervell d’un animal que

pesara 2000 kg, per exemple, ja

que eixiríem fóra del rang de

valors analitzats.

Exercici 6.

Amb l’arxiu Cerebros.sav original:

Calcula les variables lcuerpo i lcerebro com els logarismes decimals de les

variables cuerpo i cerebro. Construeix el núvol de punts d’aquestes noves

variables. Comenta la gràfica obtinguda i compara-la amb l’anterior. A quins animals

representen els punts atípics d’aquesta gràfica?

Elimina les dades relatives als dinosaures i fes de nou la gràfica anterior (utilitzant

únicament mamífers). Comenta-la i compara-la amb les gràfiques anteriors.

Obtín una descripció numèrica de les dues variables transformades. Què pots dir sobre

les mesures de localització d’aquestes dues variables? I de les seues mesures de

dispersió?