Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de...

91
PRINCIPIOS DEL ANÁLISIS DE DATOS PRINCIPIOS DEL ANÁLISIS DE DATOS Prof Dr José Perea Prof. Dr . José Perea Dpto. Producción Animal Universidad de Córdoba

Transcript of Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de...

Page 1: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

PRINCIPIOS DEL ANÁLISIS DE DATOSPRINCIPIOS DEL ANÁLISIS DE DATOS

Prof Dr José PereaProf. Dr. José PereaDpto. Producción AnimalUniversidad de Córdoba

Page 2: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

ÁPRINCIPIOS DEL ANÁLISIS DE DATOS

1. Tipos y medición de variables

2 Estadística descriptiva2. Estadística descriptiva

3. Tablas de correlación y contingencia

4. Construcción y manejo de una base de datos

5. Caso prácticop

Page 3: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

V i bl C t í ti d d ( l t ió i l

variables

- Variable. Característica de cada caso (explotación, animal,ganadero, etc.) de una base de datos.

“V i bl ” i d i í d- “Variable” viene de variar, porque varía en cada caso.

- Cada caso tiene un valor para cada variable.

- Por ejemplo, a las explotaciones se las puede describirrespecto a características como: superficie, capital,trabajadores antigüedad especies explotadas etctrabajadores, antigüedad, especies explotadas, etc.

- Medir es el proceso de asociación de números o símbolos adeterminadas características de los objetos (explotaciones,animales etc ) según reglas preestablecidasanimales, etc.) según reglas preestablecidas.

Page 4: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

E l C j t d l d t i bl

variables

- Escala. Conjunto de valores que puede tomar una variable.

- Superficie: 0 a miles de ha

- Capital: 0 a miles de euros

- Trabajadores: 0 a cientosj

- Antigüedad: 0 a décadas

Especies explotadas: b o c p e- Especies explotadas: b, o, c, p, e

- Pero también:

- Superficie: pequeña, mediana, grande

- Antigüedad: antigua, reciente, moderna

Page 5: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

D fi i di bi l i bl f d t l l

variables

- Definir y medir bien las variables es fundamental para eléxito de la investigación.

E l d fi i ió l di ió h t d- Errores en la definición o en la medición hacen que todoslos análisis e interpretaciones posteriores sean erróneas.

Hay variables fáciles de definir: superficie especie- Hay variables fáciles de definir: superficie, especieexplotada

Otras habría que matizarlas: trabajadores estado civil del- Otras habría que matizarlas: trabajadores, estado civil delganadero

Otras hay que definirlas muy bien: dependencia de las- Otras hay que definirlas muy bien: dependencia de lassubvenciones, adecuación de la estructura productiva

Page 6: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

L l d l i bl d t i é áli i

variables

- Las escalas de las variables determinan qué análisis sepueden desarrollar.

- Por ejemplo: Establecer una relación de dependencia entre elresultado neto de la explotación y su dimensiónresultado neto de la explotación y su dimensión.

- Si medimos RN en € y Superficie en ha podemoshacer una regresión linealhacer una regresión lineal.

- Si medimos RN en (pérdidas o ganancias) podemoshacer una regresión logística multinominalhacer una regresión logística multinominal.

- Hay 4 escalas clásicas, aunque actualmente quedan debatespendientes de resolver: nominal, ordinal, de intervalo y derazónrazón.

Page 7: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

E l i l L l ti t

variables

Escala nominal. Los valores son etiquetas.

- Se pueden utilizar nombres, letras, etc. Por ejemplo, lasi l t d bespecies explotadas: o, c, b, p, e.

- También números: 0=1, c=2, b=3, p=4 y e=5, aunque nose pueden establecer jerarquías: 0 1 2 3 4 5se pueden establecer jerarquías: 0=1=2=3=4=5

- Los valores son categorías, son diferentes por unacualidad no por una cantidadcualidad, no por una cantidad

- Todos los objetos deben de clasificarse en categorías quesean mutuamente excluyentes y exhaustivassean mutuamente excluyentes y exhaustivas

- Se pueden calcular estadísticos como: recuento defrecuencias moda y tablas de contingencia (no hay mediafrecuencias, moda y tablas de contingencia (no hay mediani varianza)

Page 8: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

E l di l L l ti t d d

variables

Escala ordinal. Los valores son etiquetas ordenadas.

- Se utilizan números que codifican a las categorías.

- Por ejemplo, la preferencia del ganadero por 4 modelosde tractores: A=1; B=2; C=3; D=4

- Se pueden establecer jerarquías: 1<2<3<4

- Todos los objetos deben de clasificarse en categorías quej g qsean mutuamente excluyentes y exhaustivas

- CUIDADO: los valores siguen siendo categorías, sondiferentes por una cualidad, no por una cantidad, es decir:

- El tractor D le gusta más que C y que A; pero no legusta 4 veces más D que A (aunque 4 – 1 = 3 )

- Se pueden calcular, además de lo anterior, la mediana ylos percentiles

Page 9: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

E l d i t l

variables

Escala de intervalo.

- Los valores son números cuyas diferencias tienen sentido.

- La escala es arbitraria.

- Por ejemplo, la temperatura en ºCj p , p

- Se pueden establecer jerarquías y diferencias, pero norazones.

- Se pueden calcular todos los estadísticos menos losbasados en ratios, como el coeficiente de variación.

Page 10: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

E l d ó

variables

Escala de razón.

- Los valores son números cuyas diferencias y razonesti tidtienen sentido.

- La escala no es arbitraria, es absoluta.

- Por ejemplo, la temperatura en ºK o el número de vacas

- No hay restricciones en el cálculo de estadísticosy

Page 11: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

V i bl ét i ( lit ti ) i l di l

variables

- Variables no métricas (cualitativas): nominales y ordinales

- Variables métricas (cuantitativas): de intervalo y de razón

- Intervalo: número de valores que puede tomar la variableq pentre dos valores

- Finito: variables discretas, p.e. Número deppropietarios

- Infinito: variables continuas, p.e. Superficie

Page 12: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

I t d ió

Estadística descriptiva

Introducción.- Inicialmente los datos de una variable no nos dicen nada

- Es necesario resumir la información que contiene

- Hay 3 aspectos clave: posición, dispersión y forma- Cada técnica de estadística descriptiva resume alguno de estos

aspectos de interés de la variable

Por ejemplo: Para conocer la actitud de los ganaderos bovinosló i b l ibl d l d 2013 l tecológicos sobre el posible cese de las ayudas en 2013 se plantea

una encuesta de n ganaderos:

opinión sobre el cese de las ayudas

Variable: escala ordinalVariable: escala ordinal

1 a 9 (1 total desacuerdo, 9 total acuerdo)

Page 13: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Expresar las frecuencias en porcentajes y porcentajes acumulados

X f fr % %a1 6 0,04 4 42 11 0 0733 7 33 11 332 11 0,0733 7,33 11,333 12 0,08 8 19,334 30 0,2 20 39,335 40 0,2667 26,67 666 25 0,1667 16,67 82,677 14 0,0933 9,33 92, ,8 9 0,06 6 989 3 0,02 2 100

Total 150 1 100 100Total 150 1 100 100

Page 14: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Distribución de frecuencias.- Indican la forma de dispersión de los datos de una variable.

- Se puede expresar en tablas de frecuencias o en histogramas.Se puede expresar en tablas de frecuencias o en histogramas.

- Si la escala es muy amplia se pueden agrupar en clases, p.e.

- Ejemplo anterior: adversos al cambio (1 a 3)- Ejemplo anterior: adversos al cambio (1 a 3)

indiferentes (4 a 6)

favorables al cambio (7 a 9)favorables al cambio (7 a 9)

ó ( 10)- Dimensión: pequeñas (menos de 10)

mediana (10 a 20)

grandes (20 a 30)

muy grandes (más de 30)

Page 15: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

- Se suelen elegir como √nSe suelen elegir como √n

- Las clases suelen ser de 4 a 20

Deben tener amplit d niforme- Deben tener amplitud uniforme

- Ojo, suponen pérdida de información

- Se representan: [Li, Lj] aunque se utiliza la marca de clase Xi (valorcentral del intervalo:

Ii Xi ni fi Ni Fi

[L L ] f /N N F N /N[Lo, L1] x1 n1 f1=n1/N N1=n1 F1=N1/N

[L1, L2] x2 n2 f2 =n2/N N2=n1+n2 F2 =N2/N

[L2, Lk] xk nk fk =nk/N Nk=N Fk =1

Σni=N Σfi=1

marca de clase

Page 16: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

- Histogramas:

Histogram for Subvenciones

30

40

uenc

y

20

30

freq

u

10

20

0 2 4 6 8 100

Subvenciones0 2 4 6 8 10

Page 17: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

- Histogramas:

Histogram for Subvenciones

120

150

uenc

y

90

120

freq

u

30

60

0 2 4 6 8 100

30

Subvenciones0 2 4 6 8 10

Page 18: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Medidas de posición.p- Resumen un valor central.

- Diferentes valores centrales.Diferentes valores centrales.

- Media aritmética: suma de todos los valores dividido por el número- Media aritmética: suma de todos los valores dividido por el númerototal de datos.

- Media geométrica: raíz enésima del producto de todos los valoresg pde la distribución.

- Se usa para promediar variables de variaciones( í )acumulativas (porcentajes, tasas, índices, etc.)

- No con valores=0 ni negativos

Page 19: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

- Mediana: valor central de la distribución. Si la distribución es par, lamedia aritmética de los dos valores centrales.

- Moda: valor de la distribución que más se repite.

- Cuartiles: 4 intervalos que dividen la distribución en el 25%.

- Deciles: intervalos que dividen la distribución en el 10%.

- Percentiles: intervalos que dividen la distribución en el 1%.

Por ejemplo: Para conocer el resultado neto de la actividad bovinaecológica de leche se plantea una encuesta de 200 ganaderos:

resultado neto

Variable: escala de razón (€)

- miles de euros a + miles de euros

Page 20: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Scatterplot for RN

1 0 6 0 2 0 2 0 6 1-1 -0,6 -0,2 0,2 0,6 1(X 100000)RN

Page 21: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Frequency Tabulation for RN

-------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel.Class Limit Limit Midpoint Frequency Frequency Frequency Frequency-------------------------------------------------------------------------------- at or below -110000,0 0 0,0000 0 0,0000

1 -110000,0 -83333,3 -96666,7 6 0,0300 6 0,0300 1 110000,0 83333,3 96666,7 6 0,0300 6 0,0300 2 -83333,3 -56666,7 -70000,0 9 0,0450 15 0,0750 3 -56666,7 -30000,0 -43333,3 7 0,0350 22 0,1100 4 -30000,0 -3333,33 -16666,7 17 0,0850 39 0,1950

5 3333 33 23333 3 10000 0 70 0 3500 109 0 5450 5 -3333,33 23333,3 10000,0 70 0,3500 109 0,5450 6 23333,3 50000,0 36666,7 28 0,1400 137 0,6850 7 50000,0 76666,7 63333,3 42 0,2100 179 0,8950 8 76666,7 103333,0 90000,0 21 0,1050 200 1,0000 9 103333,0 130000,0 116667,0 0 0,0000 200 1,0000above 130000,0 0 0,0000 200 1,0000--------------------------------------------------------------------------------

Page 22: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Medidas de dispersión.p- Indican la representatividad de una medida de posición.

- Para lo que cuantifican la distancia de los diferentes valores de laPara lo que cuantifican la distancia de los diferentes valores de ladistribución respecto a dicha medida.

- Esa distancia es la variabilidad.

- Por ejemplo, una media será más representativa delcomportamiento de una variable cuanto más cerca de ella sedistribuyan los valoresdistribuyan los valores.

- Generalmente acompañan una o dos medidas de dispersión a lasmedidas de posición para referenciar la representatividadmedidas de posición para referenciar la representatividad.

- Pueden ser absolutas o relativas según dependan o no de lasunidades de medida.

Page 23: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Medidas de dispersión absolutas no referentes a promedios.p p- Recorrido: diferencia entre el valor máximo y el mínimo.

- Recorrido intercuartílico: Idem pero entre el 3 y 1 cuartil.Recorrido intercuartílico: Idem pero entre el 3 y 1 cuartil.

Medidas de dispersión relativas no referentes a promediosMedidas de dispersión relativas no referentes a promedios.- Coeficiente de apertura: cociente entre el valor máximo y el

mínimo.mínimo.

- Recorrido relativo: cociente entre el recorrido y la media.

- Recorrido semiintercuartílico: cociente entre el recorrido- Recorrido semiintercuartílico: cociente entre el recorridointercuartílico y la suma del primer y tercer cuartil.

Page 24: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Medidas de dispersión referentes a promedios. Miden el errorp pque se comete al utilizar el promedio en cuestión.

Medidas de dispersión absolutas referentes a promedios.- Desviación media: media aritmética de las desviaciones de cadaDesviación media: media aritmética de las desviaciones de cada

valor con la media de la distribución en valor absoluto.

- Desviación respecto a la mediana: idem pero con la mediana.

- Varianza: igual que la desviación media pero con las desviacionesal cuadrado.

- Desviación típica: la raíz cuadrada de la varianza.

- Error estándar: cociente entre la desviación típica y n.

Page 25: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Medidas de dispersión relativas referentes a promedios.p p- Coeficiente de variación: cociente entre la desviación típica y la

media aritmética.

- Muy útil para comparar medias de variables con diferentesunidades

- Se suele expresar en porcentaje

Page 26: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Summary Statistics for RN

Count = 200Average = 21678,6Median = 13709,5Mode =Mode = Geometric mean = Variance = 1,96557E9Standard deviation = 44334,7Standard error = 3134,94Minimum = -98586,0Maximum = 98863,0Range = 197449,0Lower quartile = 838 5Lower quartile 838,5Upper quartile = 57540,0Interquartile range = 56701,5C ff f i ti 204 509%Coeff. of variation = 204,509%

Page 27: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Box-and-Whisker Plot

1 0 6 0 2 0 2 0 6 1

RN-1 -0,6 -0,2 0,2 0,6 1

(X 100000)

Page 28: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Medidas de forma.- Se basan en la representación gráfica de la variable sin llegar a

representarla.

- Corrigen el error de la medida de posición.

- Medidas de asimetría.

- Si existe el mismo número de valores a ambos lados de lamedia.

- Si estos valores son equidistantes dos a dos y su frecuencia esla misma.

- Coeficiente de Fisher: =0, simétrica; <0 asimétrica -; >0asimétrica +asimétrica +

- Fisher estandarizado.

P- Pearson.

- Bowley.

Page 29: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

- Medidas de curtosis.

- Estudian la distribución de frecuencias en la zona central.

- Es decir, si la distribución es más o menos apuntada., p

- Es necesario definir previamente una distribución tipo.

- Generalmente la normalGeneralmente la normal.

- Coeficiente de curtosis. =0, mesocúrtica, <0, platicúrtica, >0,leptocúrtica

- de curtosis estandarizado.

Page 30: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Summary Statistics for RN

Co nt 200Count = 200Skewness = -0,477229Stnd. skewness = -2,75528Kurtosis = 0,0600917Stnd. kurtosis = 0,17347

Page 31: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Estadística descriptiva

Symmetry Plot for RN(X 10000)n

10

12( )

med

ian

6

8

bove

m

2

4

nce

ab

0 2 4 6 8 10 120

2

dist

an

0 2 4 6 8 10 12(X 10000)distance below median

Page 32: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Tablas de correlación y contingencia.y g- Distribuciones bidimensionales.

- Se consideran simultáneamente dos características (variables) de laSe consideran simultáneamente dos características (variables) de lamisma muestra.

- Para variables cualitativas: tablas de contingencia.

- Para variables cuantitativas: tablas de correlación.

- Ejemplo: peso y alzada a la cruz; superficie y tamaño del rebañoj p p y ; p y

Page 33: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Tablas de correlación.- Sea una muestra estudiada simultáneamente según dos variables:

X e Y.

- Genéricamente: xi; yj; nij, donde xi; yj son dos valores cualesquiera ynij es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de Yésimo de Y.

- Se representa como tabla de doble entrada:

1 2 j i fiy1 y2 ... yj ... ni. fi.

x1 n11 n12 ... n1j ... n1. f1.

fx2 n21 n22 ... n2j ... n2. f2.

... ... ... ... ... ... ... ...

xi ni1 ni2 ... nij ... ni. fi.

... ... ... ... ... ... ... ...

n.j n.1 n.2 ... n.j ... N

f.j f.1 f.2 ... f.j ... 1

Page 34: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Tipos de distribuciones.p- Distribución conjunta.

- Distribuciones marginales.Distribuciones marginales.

- Distribuciones condicionadas.

fi isu per fi cie

1 10 100 200v 50 13 9 32 43 97 0,28a 100 21 8 14 21 64 0 19a 100 21 8 14 21 64 0,19c 150 12 19 34 12 77 0,23a 200 14 54 1 35 104 0,3

60 90 81 111 342 160 90 81 111 342 1

0,18 0,26 0,24 0,32 1

Page 35: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Distribución conjunta.j- Frecuencia absoluta conjunta. Número de veces que (xi; yj) aparece

ordenado: nij

- Frecuencia relativa conjunta. Cociente entre la frecuencia absolutaconjunta y el total de observaciones (fij)

- Se cumple:

- La suma de todas las frecuencias absolutas conjuntas = n

- La suma de todas las frecuencias relativas conjuntas = 1

Page 36: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

su per fi cie

1 10 100 200v 50 13 9 32 43 97 0 28v 50 13 9 32 43 97 0,28a 100 21 8 14 21 64 0 19100 21 8 14 21 64 0,19c 150 12 19 34 12 77 0,23150 12 19 34 12 77 0,23a 200 14 54 1 35 104 0,3

60 90 81 111 342 1

0,18 0,26 0,24 0,32 1

Page 37: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Distribuciones marginales.g- Sólo se tiene en cuenta una de las variables.

- Frecuencia absoluta marginal. Número de veces que (xi; ) apareceFrecuencia absoluta marginal. Número de veces que (xi; ) aparecesin tener en cuenta el valor de y: ni.

- Frecuencia relativa marginal. Cociente entre la frecuencia absolutamarginal y el total de observaciones (fi.)

- Se cumple:

- La suma de todas las frecuencias absolutas marginales = n

- La suma de todas las frecuencias relativas marginales = 1

Page 38: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Distribuciones condicionadas.- Sólo se tiene en cuenta una fila o una columna, como si fuera una

nueva muestra.

y1 y2 ... yj ... ni. fi.

x1 n11 n12 n1j n1 f1x1 n11 n12 ... n1j ... n1. f1.

x2 n21 n22 ... n2j ... n2. f2.

... ... ... ... ... ... ... ...

xi ni1 ni2 ... nij ... ni. fi.

... ... ... ... ... ... ... ...

n.j n.1 n.2 ... n.j ... N

f.j f.1 f.2 ... f.j ... 1

Page 39: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Covarianza.- Mide la forma en que varía conjuntamente dos variables X e Y

- En el estudio conjunto de dos variables, interesa es saber si existeEn el estudio conjunto de dos variables, interesa es saber si existealgún tipo de relación entre ellas (Sxy).

- Lo importante no es la magnitud, sino su signo:

- Si S<0 Y decrece si X crece

- Si S>0 Y crece con X

- Si S=0 Y es independiente linealmente de X

Page 40: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Covarianza.- Sxy = 10515 - 26*127 = 7178

- Lo importante no es la magnitud, sino su signo:Lo importante no es la magnitud, sino su signo:

- Si S<0 Y decrece si X crece

- Si S>0 Y crece con X- Si S>0 Y crece con X

- Si S=0 Y es independiente linealmente de X

Page 41: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Dependencia.p- Independencia

- Dependencia funcionalDependencia funcional

- Dependencia estadística

Existe dependencia cuando los valores de una distribución condicionan a los de la otra (X,Y)( , )

Page 42: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Independencia.p- Dos variables son independientes entre si cuando una de ellas no

influye en la distribución de la otra condicionada por el valor qued t l iadopte la primera.

- La condición necesaria y suficiente para que X e Y seanindependientes es:independientes es:

S f- Si X es independiente de Y, las frecuencias relativas condicionadasX/Yj son idénticas a las respectivas frecuencias relativas marginalesde X.

- Si X es independiente de Y, Y es independiente de X.

- Si X e Y son 2 variables independientes, su covarianza es cero; perop , ; pla covarianza de 2 variables puede tomar valor cero, y no serindependientes.

Page 43: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Dependencia funcional.p- Existe una relación matemática exacta entre ambas variables.

- La variable X depende de Y si a cada modalidad yj de YLa variable X depende de Y si a cada modalidad yj de Ycorresponde una única modalidad posible de X.

- Por tanto, cualquiera que sea j, la frecuencia absoluta nij vale cerojsalvo para un valor de i correspondiente a una columna j.

- La dependencia de X respecto de Y no implica que Y dependa de X.

- Para que la dependencia sea recíproca, los caracteres X e Y debenpresentar el mismo número de modalidades y en cada fila como encada columna de la tabla debe haber uno y solo un término diferentecada columna de la tabla debe haber uno y solo un término diferentede cero.

Page 44: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Dependencia funcional.p

su per fi cie

1 10 100 200v 50 12 0 0 0 12 0,04a 100 0 20 0 0 20 0 06a 100 0 20 0 0 20 0,06c 150 0 0 24 0 24 0 07150 0 0 24 0 24 0,07a 200 0 0 0 10 10 0,03

12 20 24 10 66 0,19

0,04 0,06 0,07 0,03 0,19

Page 45: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Dependencia funcional.p

su per fi cie

1 10 100 200v 50 12 0 0 0 12 0 04v 50 12 0 0 0 12 0,04a 100 0 20 0 13 33 0,1100 0 20 0 13 33 0,1c 150 0 0 24 0 24 0,07a 12 20 24 20 76 0,2

0,04 0,06 0,07 0,06 0,22

Page 46: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Dependencia estadística.p- Existe relación matemática no exacta entre ambas variables.

- La regresión estudia la dependencia.La regresión estudia la dependencia.

- La correlación estudia el grado de dependencia.

- Regresión:

Una de las variables influye sobre la otra y la regresión tiene por- Una de las variables influye sobre la otra y la regresión tiene porobjetivo descubrir el modo en que se relacionan.

- En la mayoría de los casos la relación entre las variables esEn la mayoría de los casos la relación entre las variables esmutua, y es difícil saber qué variable influye sobre la otra.

- Ejemplos:

- Peso y alzada a la cruz

- Superficie y número de vacasp y

Page 47: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

- X = variable independiente (superficie)

- Y = variables dependiente (número de vacas)

X Superficie 1 1 1 4 5 6 8 8 9 10

Y Vacas 10 20 30 25 30 40 60 40 50 80

- El problema de encontrar una relación entre dos variables es muycomplejo, ya que existen infinidad de funciones de formas distintas.

- El caso más sencillo de relación entre dos variables es la relaciónLINEAL: Y = a + bX

60

70

80

90

s)

10

20

30

40

50

Y (v

acas

00 2 4 6 8 10 12

X (superficie)

Page 48: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

- Para cada dato de X (xi, superficie) hay emparejado un dato de Y(yi, vacas).

- También está el valor de Y (y*i) predicho por las diferentesec acionesecuaciones.

- El error de cada ecuación: e = (yi – y*i)

- Se escoge la recta que minimice la suma de los cuadrados de todoslos errores, que es la misma que minimiza la varianza de loserrores.

y = 6,0648x + 4,53770

80

90

40

50

60

70

Y (v

acas

)

0

10

20

30

Y

00 2 4 6 8 10 12

X (superficie)

Page 49: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

- Correlación lineal:

- Mide la fuerza de la relación lineal entre dos variables X e Y.

- “ R ” o coeficiente de correlación lineal de Pearson.

Si:- Si:

- R=1, correlación perfecta positiva entre X e Y

R 1 l ió f t ti- R=-1, correlación perfecta negativa

- R=0, no existe correlación lineal (puede existir otro tipo derelación)relación)

- 0<R<1, correlación positiva y dependencia directa

1<R<0 correlación negativa y dependencia inversa- -1<R<0, correlación negativa y dependencia inversa

Page 50: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

- Relación entre la regresión lineal y el coeficiente de correlación:

- Si X e Y están relacionadas linealmente, parte de lavariabilidad de la variable Y, vendrá explicada porariaciones de X ( ariabilidad e plicada por el modelo)variaciones de X (variabilidad explicada por el modelo).

- El resto responderá a variaciones de fenómenosrelacionados con la variable Y o con el azar (variabilidad norelacionados con la variable Y o con el azar (variabilidad noexplicada por el modelo).

- R2 es el porcentaje de la variabilidad de la variableexplicada que se debe a la variabilidad de la variableexplicativa (coeficiente de determinación lineal).

- El signo del coeficiente de correlación lineal será el mismoque el de la covarianzaque el de la covarianza.

Page 51: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

y = 6 0648x + 4 53780

90

y = 6,0648x + 4,537R2 = 0,8358

60

70

80

40

50

Y (v

acas

)

20

30

Y

0

10

0 2 4 6 8 10 120 2 4 6 8 10 12

X (superficie)

Page 52: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Distribuciones de más de dos dimensiones.- Matriz de covarianzas

- Matriz de correlacionesMatriz de correlaciones

- Matriz de correlaciones parciales

Page 53: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Matriz de covarianzas.- Resume las covarianzas para todos los posibles pares de variables.

S11 S12 S13 ... S1n

S S S SS21 S22 S23 ... S2n

C = . . . ... .

S S S SSn1 Sn2 Sn3 ... Snn

Page 54: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Matriz de correlaciones.- Resume las correlaciones para todos los posibles pares de

variables.

r11 r12 r13 ... r1n

r21 r22 r23 ... r2n

R = . . . ... .

rn1 rn2 rn3 ... rnn

Page 55: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Matriz de correlaciones parcialesp- Resume las correlaciones para todos los posibles pares de

variables, teniendo en cuenta la posible influencia del resto dei blvariables.

r11 r12 r13 ... r1n

r21 r22 r23 ... r2n

P = . . . ... .

rn1 rn2 rn3 ... rnn

Page 56: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Con Statgrafics:g

Correlations

NHT NVAC RN --------------------------------------------------------------------------------NHT 0,4957 0,3642 ( 12) ( 12) 0,1013 0,2444

NVAC 0,4957 -0,4641 ( 12) ( 12) 0,1013 0,1285

RN 0,3642 -0,4641 ( 12) ( 12) 0,2444 0,1285 --------------------------------------------------------------------------------

Page 57: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Tablas de contingencia.g- 2 variables cualitativas o al menos una cualitativa. Tabla de doble

entrada con una variable en las filas y otra en las columnas.

- En las celdas resultantes del cruce de las filas y las columnas seincluye el número de elementos de la distribución que presentanambas modalidadesambas modalidades.

- Distribuciones absolutas, marginales y condicionadas

1 2 j i fiy1 y2 ... yj ... ni. fi.

x1 n11 n12 ... n1j ... n1. f1.

fx2 n21 n22 ... n2j ... n2. f2.

... ... ... ... ... ... ... ...

xi ni1 ni2 ... nij ... ni. fi.

... ... ... ... ... ... ... ...

n.j n.1 n.2 ... n.j ... N

f.j f.1 f.2 ... f.j ... 1

Page 58: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Asociación de variables cualitativas.- 2 variables son independientes si el producto de sus frecuencias

relativas es igual a la frecuencia relativa conjunta.

- Si no se cumple, ambas variables son dependientes:p , p

El valor n’ es la frecuencia absoluta conjunta teórica que existiría si- El valor n ij es la frecuencia absoluta conjunta teórica que existiría silos 2 atributos fuesen independientes y nij es la frecuencia absolutaconjunta observada.

Page 59: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Asociación de variables cualitativas.- Coeficiente de contingencia: varía de cero a altas magnitudes

Coeficiente de contingencia de Pearson: varía entre 0 y 1- Coeficiente de contingencia de Pearson: varía entre 0 y 1

Page 60: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

correlación y contingencia

Asociación de variables cualitativas.

- Coeficiente lambda- Coeficiente lambda.

Coeficiente V de cramer- Coeficiente V de cramer.

C fi i t T d T h- Coeficiente T de Tshuprow.

- Chi cuadrado.

Page 61: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

C di i d li bilid d

supuestos básicos

Condiciones de aplicabilidad.

- Normalidad

- Homocedasticidad

Page 62: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

N lid d

supuestos básicos

Normalidad.

- Cuando se pretende comprobar una hipótesis se puedent 2cometer 2 errores:

- Error tipo 1 (α): probabilidad de equivocarnos al rechazarla hipótesis (normalmente se elige 0 05)la hipótesis (normalmente se elige 0,05)

- Error tipo 2 (β): probabilidad de equivocarnos al aceptarla hipótesis (1 β: potencia del contraste)la hipótesis (1- β: potencia del contraste)

- El investigador quiere pruebas potentes y valores αpequeñospequeños.

Si las variables no son normales multivariantes el error tipo 1 se incrementa.

Page 63: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Normalidad.

Estudiar la asimetría y curtosis de la variable (si la variable

supuestos básicos

- Estudiar la asimetría y curtosis de la variable (si la variableestá tipificada, la asimetría es cero y la curtosis 3)

- Exploración gráfica con gráficos Q-Q

- Contrastes de normalidad

33

0

Page 64: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

C t t d lid d

supuestos básicos

Contrastes de normalidad:

- Todos tienen como hipótesis nula la normalidad de ladi t ib iódistribución

- Cada uno tiene su utilidad

- Shapiro –Wilk funciona bien con muestras pequeñas

- El más habitual es Kolmogorov-Smirnovg

- En muestras pequeñas es mejor ser conservador con elnivel de significación

Page 65: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

C St t hi

supuestos básicos

Con Statgraphics:

Computed Chi-Square goodness-of-fit statistic = 116,48P V l 1 92957E 12P-Value = 1,92957E-12

Shapiro-Wilks W statistic = 0,937943P V l 5 58428E 10P-Value = 5,58428E-10

Z score for skewness = 1,91137P V l 0 0559571P-Value = 0,0559571

Z score for kurtosis = 0,326301P V l 0 744192P-Value = 0,744192

Page 66: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

E l ió áfi Q Q ( ól á d 20 )

supuestos básicos

Exploración gráfica Q-Q: (sólo para más de 20 casos)

Quantile-Quantile Plot

120

150

90

120

HT

30

60NH

0 30 60 90 120 1500

30

0 30 60 90 120 150

Normal distribution

Page 67: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Homoscedasticidad:supuestos básicos

- En datos agrupados, la homoscedasticidad significa que lavarianza de la variable continua es estadísticamente lamisma en todos los grupos que la variable no métricamisma en todos los grupos que la variable no métricadelimita los grupos.

- El contraste es si la varianza es la mismaEl contraste es si la varianza es la misma

- Por ejemplo:

V i bl ti fi i (h )- Variable continua: superficie (ha)

- Variable no métrica: especie (0=ovino, 1=caprino)

- Dentro de los grupos 0 y 1, la varianza de la superficiedebe ser estadísticamente la misma

Page 68: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

C t t d L (hi ót i l l i d l

supuestos básicos

- Contraste de Levene (hipótesis nula: la varianza de lavariable X es igual en todos los niveles que forma la variableZ))

Page 69: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

valores perdidos y outliers

Valores perdidos y anómalos:

fiabilidad de los datos de partidap

Page 70: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

V l did

valores perdidos y outliers

Valores perdidos:

- La existencia de valores perdidos es inevitable si se trabajacon encuestas.

- El ganadero no quiere declarar si tiene préstamo

- Se anota una cantidad en una casilla equivocadaq

- La cuantía de las ayudas aún no se conoce para elejercicio en concreto, etc.

- La consecuencia depende de su patrón de distribución, dela cantidad de valores y de la causa de pérdida.

- Lo más importante es su distribución: si es aleatoria nocausará muchos daños, si tiene un patrón será muydañino.

Page 71: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

P j l

valores perdidos y outliers

Por ejemplo:

Opinión de los ganaderos sobre las políticas sectoriales:

V1 = las ayudas perjudican el libre comercio

V2 = no deben aplicarse aranceles europeosV2 no deben aplicarse aranceles europeos

V3 = a la UE le interesa poco el medio ambiente

V4 d b di i i l dV4 = deben disminuir las ayudas

V5 = ganadero ecológico (1) o convencional (2)

Page 72: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

valores perdidos y outliersCaso V1 V2 V3 V4 V4* V5 V61 5 5 4 5 5 22 5 5 4 4 4 5 23 5 5 4 2 2 5 24 5 4 3 3 4 25 5 5 2 5 5 5 26 5 5 5 5 5 5 17 5 5 1 4 17 5 5 1 4 18 5 4 3 3 3 5 29 4 4 4 1 1 5 2

10 5 2 3 3 111 5 5 3 3 3 5 211 5 5 3 3 3 5 212 5 4 2 4 4 5 213 5 3 4 2 2 4 214 5 4 5 1 1 3 115 5 5 5 3 3 4 215 5 5 5 3 3 4 216 5 3 2 5 117 5 5 1 3 118 5 4 4 3 119 5 4 2 4 4 4 219 5 4 2 4 4 4 220 1 5 3 4 4 5 221 5 4 3 4 4 5 222 5 5 3 4 4 5 223 5 4 5 4 4 5 123 5 4 5 4 4 5 124 5 3 1 5 5 5 125 5 3 5 1 1 3 126 4 5 1 5 227 2 3 5 1 3 228 4 4 5 2 5 229 5 4 4 5 5 130 5 5 5 5 5 5 2

Page 73: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

valores perdidos y outliers

V4 d b di i i l dV4 = deben disminuir las ayudas

N Min Max Med D.E.

V4 24 1 5 2,92 1,53

V4* 23 1 5 3,43 1,37

Page 74: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Diagnóstico de aleatoriedad de los valores perdidos:valores perdidos y outliers

- Procedimiento basado en la lógica de la investigación:g g

- Si el patrón es sistemático (no aleatorio), elcomportamiento de la variable con valores perdidosdebe ser diferente respecto a otras variables sin valoresperdidos.

- El investigador deberá comprobar qué variables secomportan de manera distinta a posteriori.

- Si no existen variables distintas a posteriori, hay queasumir la aleatoriedad de los valores perdidos.

Page 75: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

S li b t t i d di t

valores perdidos y outliers

- Se realiza una prueba t para muestras independientes:

- A partir de la variable a analizar se crea otrafi ti i difi d 0 h d t 1 d tficticia, codificada con 0=hay dato; 1=datofaltante

Se desarrolla la prueba t con otra variable sin- Se desarrolla la prueba t con otra variable sindatos faltantes (variable dependiente) según lavariable ficticia (factor)( )

- Si las medias son significativamente diferentes,la distribución sigue un patrón sistemático

Page 76: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

E l j l P b t V2

valores perdidos y outliers

En el ejemplo: Prueba t con V2Caso V1 V2 V3 V4 V4* V5 V6

1 5 5 4 5 5 22 5 5 4 4 4 5 2

V4(COD) V4*(COD)0 11 12 5 5 4 4 4 5 2

3 5 5 4 2 2 5 24 5 4 3 3 4 25 5 5 2 5 5 5 26 5 5 5 5 5 5 17 5 5 1 4 1

1 10 11 11 11 07 5 5 1 4 1

8 5 4 3 3 3 5 29 4 4 4 1 1 5 210 5 2 3 3 111 5 5 3 3 3 5 212 5 4 2 4 4 5 2

1 01 11 10 01 11 112 5 4 2 4 4 5 2

13 5 3 4 2 2 4 214 5 4 5 1 1 3 115 5 5 5 3 3 4 216 5 3 2 5 117 5 5 1 3 1

1 11 11 11 11 01 017 5 5 1 3 1

18 5 4 4 3 119 5 4 2 4 4 4 220 1 5 3 4 4 5 221 5 4 3 4 4 5 2

1 00 01 11 11 11 122 5 5 3 4 4 5 2

23 5 4 5 4 4 5 124 5 3 1 5 5 5 125 5 3 5 1 1 3 126 4 5 1 5 2

1 11 11 11 11 01 027 2 3 5 1 3 2

28 4 4 5 2 5 229 5 4 4 5 5 130 5 5 5 5 5 5 2

1 00 10 11 1

Page 77: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

E l j l P b t V2

valores perdidos y outliers

En el ejemplo: Prueba t con V2

V4(COD) V4*(COD)

1 0 t 1 0 t

V2(media) 3,96 3,83 0,23 4,30 2,71 -3,95*

Luego, la distribución de los valores perdidos de V4 es aleatoria, mientras que V4* sigue un patrón sistemático

Page 78: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Di ó ti d l t i d d d l l did

valores perdidos y outliers

Diagnóstico de aleatoriedad de los valores perdidos:

- Prueba de las “correlaciones dicotomizadas”:

- Procedimiento basado en la coincidencia significativagentre los casos concretos en que las variables toman unvalor perdido.

- Las variables con casos perdidos se transforman envariables ficticias codificadas: 0=valor perdido, 1=haydatodato

- Se calcula la matriz de correlaciones

- Si hay correlación significativa entre las variablesficticias estamos ante un posible patrón significativo

Page 79: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

E l j l

valores perdidos y outliers

En el ejemplo:

V4(COD) V4*(COD) V2(COD)

V4(COD) 1 0,118 (0,53) -0,19 (0,29)

V4*(COD) 0,18 (0,53) 1 0,71 (0,00)*

V2(COD) -0,19 (0,29) 0,71 (0,00)* 1

Luego, la distribución de los valores perdidos de V4 esLuego, la distribución de los valores perdidos de V4 es aleatoria, mientras que V4* sigue un patrón sistemático

Page 80: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

T t i t d l l did

valores perdidos y outliers

Tratamiento de los valores perdidos:

- Si los valores siguen un patrón:

- Grave problema

- No hay medios estadísticos conocidos para reducir ely pnúmero de valores perdidos

- No es posible generalizar los resultadosp g

Si los valores son aleatorios:- Si los valores son aleatorios:

- Problema menor con dos opciones:

- Eliminar todos los casos con un valor perdido

- Imputar un valor estimado

Page 81: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Eli i t d l l did

valores perdidos y outliers

- Eliminar todos los casos con un valor perdido:

- Procedimiento por defecto en los programast dí tiestadísticos

- Se corre el riesgo de perder mucha información

- Especial cuidado en los análisis basados en análisis devarianzas-covarianzas, correlaciones

- Se puede eliminar selectivamente en cada análisissólo los casos con datos faltantes en una de lasvariables implicadasvariables implicadas

- Aunque esto genera problemas por el continuocambio de tamaño muestralcambio de tamaño muestral

Page 82: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

- Imputar valores en los datos perdidos:valores perdidos y outliers

- Lo más utilizado es imputar la media:

- Procedimiento conservadorProcedimiento conservador

- La media no cambia pero la varianza se reduce

Page 83: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

- Imputar valores en los datos perdidos:valores perdidos y outliers

- Como método alternativo, la regresión:

- Como variable dependiente se usa la variableComo variable dependiente se usa la variablecon datos perdidos y como variablesindependientes se usan el resto de las variables

t d l d tcon todos los datos

- Deben ser todas variables métricas

- Método más razonable que la media, aunque:

- Las estimaciones serán más coherentes conlas variables independientes que los valores“reales”

- La varianza también se reduce

- Sólo si las estimaciones pertenecen al rangode la variable (por ejemplo, V4 no puede ser 7)

Page 84: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Valores atípicos (outliers):valores perdidos y outliers

- Aquellos casos que una, dos o más variables toman valoresextremos que difieren del comportamiento del resto de la

t h h d h id dmuestra y hacen sospechar de que han sido generados pormecanismos distintos.

C i- Consecuencias:

- Distorsionan los resultados

- Suelen afectar a la normalidad

Page 85: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Valores atípicos (outliers):valores perdidos y outliers

- Causas:

- Errores en los datos (recogida e introducción)Errores en los datos (recogida e introducción)

- Errores intencionados por parte del encuestado

E d t (i t d i l t- Errores de muestreo (introducir en la muestra unindividuo que no pertenece a la población)

Outliers verdaderos: casos que pertenecen a la- Outliers verdaderos: casos que pertenecen a lapoblación objeto de estudio y que realmentedifieren del resto por la variabilidad inherentep

Page 86: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Detección de valores atípicosvalores perdidos y outliers

- Univariante

- BivarianteBivariante

- Multivariante

Page 87: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

Detección univariante de valores atípicosvalores perdidos y outliers

- Considerar atípicos aquellos casos cuyos valoresestandarizados (media = 0 y desviación típica = 1) superen eli i t b l (k)siguiente umbral (k):

- N < 80 2,5

- N > 80 3 o 4

- Si la variable sigue una distribución normal 3g

(x’) = (x x)/S(x ) = (xi – x)/Sx

x’ < x + kSx

- Test de Grubbs

Page 88: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

valores perdidos y outliers

2 53

3,5

1,52

2,5

00,5

1

1 5-1

-0,50

-2-1,5

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Page 89: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

¿Qué hacer con los valores atípicos?valores perdidos y outliers

- Si es un error evidente es conveniente corregirlo oeliminarlo

- Error en la introducción de los datos: buscar el original ycorregirlo

- Error en el registro:

- Volver a encuestar el caso en cuestión

- Si no se puede (p.e. la encuesta es anónima)cambiarlo por el valor mediop

Page 90: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

¿Qué hacer con los valores atípicos?valores perdidos y outliers

- Si es un outlier verdadero o no se puede descartar que no losea:

- Algunos autores consideran correcto su eliminación paraque los análisis reflejen la tendencia mayoritaria de la

bl iópoblación

- Otros consideran que la eliminación no se debe hacer:

- Suavizar su influencia con transformaciones(aunque dificulta la interpretación de losresultados)resultados)

- Utilizar contrastes no paramétricos (son másrobustos)robustos)

Page 91: Prof Dr José PereaProf. Dr. José Perea Dpto. Producción ... · - Todos los objetos deben de clasificarse en categorías que sean mutuamente excluyentes y exhaustivas - Se pueden

ÍBIBLIOGRAFÍA

Técnicas estadísticas con SPSS. 2003. César Pérez.Editorial Prentice Hall. ISBN: 8420531677.

A áli i lti i t li d 2005 E i l U i lAnálisis multivariante aplicado. 2005. Ezequiel Uriel yJoaquín Aldás. Editorial Thomson. ISBN: 8497323726