Liliana Recchioni. SIDIUNLAR ESTADISTICA APLICADA A LA INVESTIGACIÓN liliana.recchioni@gmail.com...

Post on 24-Jan-2016

230 views 2 download

Transcript of Liliana Recchioni. SIDIUNLAR ESTADISTICA APLICADA A LA INVESTIGACIÓN liliana.recchioni@gmail.com...

Liliana Recchioni. SIDIUNLAR

ESTADISTICA APLICADA A LA INVESTIGACIÓN

liliana.recchioni@gmail.com

Presentación

Liliana Recchioni. SIDIUNLAR

ESTADISTICA APLICADA A LA INVESTIGACIÓN

liliana.recchioni@gmail.com

Capitulo 1: ESTADISTICAS DESCRIPTIVAS

Liliana Recchioni. SIDIUNLAR

¿Qué es Estadística? “La Estadística estudia métodos científicos para recoger,

organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis”

Murray R. Spiegel

Como en las demás ciencias la estadística ha venido a ser una herramienta vital para los científicos. Les permite comprender fenómenos sujetos a variaciones y predecirlos o controlarlos eficazmente.

Irwin Miller

Liliana Recchioni. SIDIUNLAR

Introducción.1. Se define una población objetivo.2. Se realiza un muestreo por lo general (se

selecciona una muestra aleatoria y representativa de la población).

3. Se realizan observaciones de un fenómeno que no se puede predecir con anterioridad Se recolectan datos de cada elemento muestreado (por ejemplo a través de un cuestionario).

4. Se analiza la muestra recolectada (objetivos-hipótesis)

5. El objetivo final es inferir estadísticamente algo sobre la población, deseamos concluir algo sobre alguna característica o varias conjuntamente, de la población en la que se realiza el estudio.

Liliana Recchioni. SIDIUNLAR

Ramas de la Estadística

• Estadística Descriptiva o Deductiva: estudia los métodos para organizar, resumir y describir un conjunto de datos para que sus características se vuelvan evidentes. Se divide en:– Técnicas Gráficas– Técnicas Numéricas.

Liliana Recchioni. SIDIUNLAR

• Estadística Inferencial o Inductiva: usa la teoría de probabilidades para generalizar las características de una población a partir de las características de una muestra representativa. Es decir, utiliza estadísticas (indicadores) muestrales para obtener conclusiones sobre los verdaderos parámetros de la población.

Liliana Recchioni. SIDIUNLAR

Población vs Muestra

• Población: es el conjunto de todas las mediciones de interés al experimentador. Su tamaño se denota con la letra N.

• Muestra: es un subconjunto de la población. Generalmente esta selección se hace aleatoriamente, cada individuo en la muestra tuvo la misma posibilidad de haber sido seleccionado. Su tamaño se denota con la letra n.

Liliana Recchioni. SIDIUNLAR

Parámetro vs. Estadístico

• Parámetro Poblacional: es un valor numérico que caracteriza a la población.

• Estadístico Muestral: es un valor numérico que caracteriza a la muestra.

• Se busca estimar el verdadero valor del parámetro a través de un estadístico.

Liliana Recchioni. SIDIUNLAR

• Lo más importante no está en lo que la muestra nos dice sobre sus miembros específicos, sino en cómo hacer inferencias sobre los miembros de la población que no fueron incluidos en la muestra.

Liliana Recchioni. SIDIUNLAR

Importancia del estudio estadístico

• Un estadístico primero diseña la muestra y el experimento, que se ajuste al objetivo, hipótesis, alcance y diseño de la investigación.

• Luego se busca el mejor método de análisis para las observaciones obtenidas.

• Finalmente si es pertinente se realizan inferencias.

Liliana Recchioni. SIDIUNLAR

Variables Aleatorias

• A los diferentes fenómenos o características que se miden en una investigación se las denomina variables aleatorias.

• La diferencia entre variables aleatorias y variables algebraicas es que las aleatorias no pueden predecirse con anterioridad. Si puede conocerse la probabilidad de ocurrencia de sus posibles valores antes de que estos valores sean observados.

Liliana Recchioni. SIDIUNLAR

Tipos de Datos

• Cualitativos: – Arrojan respuesta categóricas. – Miden cualidades– Se les puede asignar después un valor numérico

(codificarlas)• Cuantitativos:

– Producen respuestas numéricas. – Miden cantidades– Podemos tratar un dato cuantitativo como

cualitativo (categorizándolo)

Liliana Recchioni. SIDIUNLAR

Tipos de Datos Cuantitativos

• Discretos: – Si el número de posibles valores que

puede tomar es contable (número naturales).

– Generalmente resultan de un proceso de conteo

Liliana Recchioni. SIDIUNLAR

Tipos de Datos Cuantitativos

• Continuos: – Si sus posibles valores están en el

continuo (números reales). – Generalmente resultan de un proceso de

medición

Liliana Recchioni. SIDIUNLAR

Escalas de Medición

• Los datos que se asocian con las variables aleatorias pueden medirse con diferentes escalas dependiendo del tipo de dato que se trate. Las distintas escalas son:

Liliana Recchioni. SIDIUNLAR

Escalas de Medición

a) Medidas por Escala Nominal:

• Los datos de tipo cualitativo se agrupan en varias categorías nominales.

• Generalmente se le asigna un valor numérico a cada categoría nominal (codificar los datos)

• Caso especial: dicotómicos

Liliana Recchioni. SIDIUNLAR

Escalas de Medición

b) Medidas por Escala Ordinal:

• Los datos de tipo cualitativo pueden ordenarse.

• Son datos que pueden medirse con una escala nominal, en donde además existe un orden natural entre las categorías.

Liliana Recchioni. SIDIUNLAR

Escalas de Mediciónc) Medidas por Escala de Razón:• Datos que cumplen con las características

necesarias para medirse con una escala de intervalo, y que además posee un cero natural.

• Tener un cero natural implica que el punto cero no es arbitrario y corresponde a una total ausencia del atributo en estudio.

Liliana Recchioni. SIDIUNLAR

Ejemplo: NominalFuma? 1.SI 2. NO

Ejemplo :OrdinalFuma? 1. Mucho 2. Poco 3. No fumo

Ejemplo. RazónCuantos cigarrillos por día fuma? ______

Liliana Recchioni. SIDIUNLAR

Resumen de información cuali y cuantitativa.

• Los datos recopilados en la muestra se pueden organizar en Tablas de Frecuencias.

• Estas tablas muestran:– las clases o categorías de respuesta de donde se

obtuvieron los datos (o los intervalos de clase si los datos son cuantitativos)

– El número o proporción de veces que la clase se encontró en los datos recopilados.

Liliana Recchioni. SIDIUNLAR

Tablas de FrecuenciaDatos Cualitativos

• Frecuencia (f): Resulta de contar el número de observaciones que "entran" en una clase

• Frecuencia Relativa (fr): Es la proporción de observaciones que "entran" en una clase:

n

ffr

Liliana Recchioni. SIDIUNLAR

Datos en base de SPSSUna base armada en excel puede leerse directamente en SPSS.La base deberá contener una variable por columna y el nombre de la variable en la primera fila.Se recomienda colocar como primera variable el Número de ficha o de individuo para volver a los instrumentos de recolección de datos si fuera necesario.

Liliana Recchioni. SIDIUNLAR

Con archivo abrir datos XLS transforma el xls en archivo spss. Se debe guarda como archivo con extensión sav . Por ejemplo:

Luego seleccionar el archivo excel que se desea abrir dar Abrir y luego Aceptar en la próxima pantalla.

Liliana Recchioni. SIDIUNLAR

Observar que se posee una vista de datos y vista de variables.En la vista de datos se tiene la matriz de datos, en la de variables el listado y característica de cada variable

Liliana Recchioni. SIDIUNLAR

Liliana Recchioni. SIDIUNLAR

Variable: refiere al nombre de las variables que contiene la base.

Tipo cadena: indica que los datos son considerados alfanuméricos, por lo tanto los números son códigos que indican solo diferencias (valores nominales).

Tipo: Numérica: indica que los datos son numéricos.

Anchura: Indica la cantidad de dígitos que tienen los códigos utilizados en la enumeración de las diferentes categorías o bien el ancho o amplitud de ese campo en relación a la cantidad de dígitos que puede asumir.

Decimales: indica la cantidad de decimales

Etiqueta: da nombre más explicativo de una variable.

Valores: se colocan los códigos y valores que asume la variable si es cualitativa y está codificada.

Liliana Recchioni. SIDIUNLAR

Tablas de Frecuencia. Datos Cualitativos

esc

245 45.0 45.0 45.0

300 55.0 55.0 100.0

545 100.0 100.0

1.00

2.00

Total

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

esc

238 43.7 45.3 45.3

287 52.7 54.7 100.0

525 96.3 100.0

20 3.7

545 100.0

1.00

2.00

Total

Válidos

SistemaPerdidos

Total

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

Datos en Alumnos.sav

Perdidos Sistema indica que no

hay dato

La variable escuela está

codificada

Luego seleccionar la variable esc

Liliana Recchioni. SIDIUNLAR

Frecuencia PorcentajePorcentaje

válidoPorcentaje acumulado

Válidos primero 197 36.1 36.1 36.1

sexto 171 31.4 31.4 67.5

tercero 177 32.5 32.5 100.0

Total 545 100.0 100.0

grado

Tabla de frecuencia de variable grado. Esta variable es alfanumérica o de cadena, según lo considera SPSS.

Liliana Recchioni. SIDIUNLAR

Tablas de FrecuenciaDatos Cuantitativos

• Para variables cuantitativas discretas las tablas de frecuencias se realizan de igual manera que para las cualitativas.

• Para variables cuantitativas continuas se deben construir intervalos. Se aconsejan entre 6 y 15 intervalos.

Los intervalos tienen un límite inferior y un límite superior.La diferencia entre ambos se denomina amplitud.

• Amplitud del Intervalo de Clase:

intervalos de núm.

rangoc

mínmáxrango Donde :

Liliana Recchioni. SIDIUNLAR

Tablas de Frecuencia Variable continua.edad

1 .2 .2 .2

8 1.5 1.5 1.7

9 1.7 1.7 3.3

1 .2 .2 3.5

6 1.1 1.1 4.6

19 3.5 3.5 8.1

5 .9 .9 9.0

14 2.6 2.6 11.6

12 2.2 2.2 13.8

12 2.2 2.2 16.0

12 2.2 2.2 18.2

14 2.6 2.6 20.7

6 1.1 1.1 21.8

14 2.6 2.6 24.4

14 2.6 2.6 27.0

6 1.1 1.1 28.1

6 1.1 1.1 29.2

2 .4 .4 29.5

3 .6 .6 30.1

1 .2 .2 30.3

5 .9 .9 31.2

1 .2 .2 31.4

5 .9 .9 32.3

2 .4 .4 32.7

2 .4 .4 33.0

2 .4 .4 33.4

18 3.3 3.3 36.7

16 2.9 2.9 39.6

5 .9 .9 40.6

14 2.6 2.6 43.1

3 .6 .6 43.7

8 1.5 1.5 45.1

9 1.7 1.7 46.8

8 1.5 1.5 48.3

9 1.7 1.7 49.9

7 1.3 1.3 51.2

13 2.4 2.4 53.6

18 3.3 3.3 56.9

8 1.5 1.5 58.3

2 .4 .4 58.7

8 1.5 1.5 60.2

4 .7 .7 60.9

1 .2 .2 61.1

1 .2 .2 61.3

2 .4 .4 61.7

5.00

5.10

5.11

5.80

6.00

6.10

6.11

6.20

6.30

6.40

6.50

6.60

6.70

6.80

6.90

7.00

7.10

7.11

7.20

7.30

7.40

7.50

7.60

7.70

7.80

7.90

8.00

8.10

8.11

8.20

8.30

8.40

8.50

8.60

8.70

8.80

8.90

9.00

9.10

9.11

9.20

9.30

9.50

9.60

9.70

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

Liliana Recchioni. SIDIUNLAR

En realidad el cálculo de los intervalos es más intuitivo y se utiliza el SPSS para armarlos.

Iremos a transformar-> Agrupación visual para armar los intervalos….

Liliana Recchioni. SIDIUNLAR

Armemos intervalos para la variable edad:

Liliana Recchioni. SIDIUNLAR

Hacemos click sobre la variable edad y aparecerá en “Variable Actual” además se visualiza el histograma o gráfico de frecuencias.Luego iremos a darle un nuevo nombre a la “Variable agrupada” y luego a “Crear puntos de corte”, éstos serán los límites superiores de los intervalos.

Liliana Recchioni. SIDIUNLAR

Liliana Recchioni. SIDIUNLAR

Ver que el primer punto de corte es el 6 y el último es 13.50. Luego el primer intervalo serán valores menores de 6 y el último mayores de 13.50.Hacer cllick en Aplicar.

Liliana Recchioni. SIDIUNLAR

Luego hacer click en esta pantalla en CREAR ETIQUETAS. Esta función le pondrá un nombre o una etiqueta a la nueva variable creada.

Liliana Recchioni. SIDIUNLAR

Hemos creado edad_int.

Si vamos a vista de variables tendremos las etiquetas…..

Liliana Recchioni. SIDIUNLAR

Liliana Recchioni. SIDIUNLAR

Luego hacemos la tabla de frecuencia para edad_int.

Liliana Recchioni. SIDIUNLAR

edad (agrupada)

25 4.6 4.6 4.6

146 26.8 26.8 31.4

139 25.5 25.5 56.9

43 7.9 7.9 64.8

114 20.9 20.9 85.7

57 10.5 10.5 96.1

21 3.9 3.9 100.0

545 100.0 100.0

<= 6.00

6.01 - 7.50

7.51 - 9.00

9.01 - 10.50

10.51 - 12.00

12.01 - 13.50

13.51+

Total

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

Liliana Recchioni. SIDIUNLAR

Pensemos ahora que la variable edad la queremos transformar en nominal. Por ejemplo si es menor que 10 será SI y si es mayor o igual que 10 será NO. Esto podría servir para temperatura…

Vamos a Transformar ->Recodificar en distintas variables.Luego pasamos edad al cuadro del medio y colocamos un nombre para la nueva variable y hacemos click en cambiar y luego en “Valores antiguos y nuevos”

Liliana Recchioni. SIDIUNLAR

Luego Añadir…

Liliana Recchioni. SIDIUNLAR

Se añade la recodificación y generamos la otra. Para valores de 10 o más NO. Añadir

Liliana Recchioni. SIDIUNLAR

Ya recodificamos la variable, pasamos de una cuantitativa a una cualitativa.Ahora haremos una tabla de frecuencia para edad_sino.

Liliana Recchioni. SIDIUNLAR

edad_sino

209 38.3 38.3 38.3

336 61.7 61.7 100.0

545 100.0 100.0

NO

SI

Total

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

Analizar- >Estadísticos descriptivas->frecuencias

Liliana Recchioni. SIDIUNLAR

Técnicas Gráficas

• Graficamos el contenido de la tabla de frecuencia.

• Las más importantes gráficas:– Pie– Barras– Histograma

Liliana Recchioni. SIDIUNLAR

Gráficas de Pie o de Sectores

Liliana Recchioni. SIDIUNLAR

Histograma

• Es exclusiva para datos cuantitativos.• Se puede hacer con la frecuencia o con la

frecuencia relativa.• Se grafican rectángulos sobre un eje cartesiano en

donde el área de cada rectángulo representa proporcionalmente a cada intervalo de clase en la tabla de frecuencia.

• Sirve para comparar las magnitudes representadas en cada intervalo de clase.

Liliana Recchioni. SIDIUNLAR

Gráficos-> Cuadro de diálogo antiguo-> Histograma

Las barras del histograma son establecidas por el programa y no se relacionan con las que uno pudiera construir con el agrupamiento visual

Liliana Recchioni. SIDIUNLAR

Medidas descriptivas

• Estos son los estadísticos muestrales.• Calculamos valores que “resumen” las

características de los datos en la muestra:– Tendencia Central– Dispersión– Medidas de Posición– Dispersión Conjunta

Liliana Recchioni. SIDIUNLAR

Tendencia Central

• Las principales medidas son:– Media Aritmética – Mediana– Moda

Liliana Recchioni. SIDIUNLAR

Tendencia Central Media Aritmética

• La media aritmética POBLACIONAL se denota como μ

• La media aritmética MUESTRAL es el promedio de los datos.

n

y=y

n

1ii

Liliana Recchioni. SIDIUNLAR

Tendencia Central Mediana

• Se define como el valor central • El valor que delimita al 50% de los datos .• Si la media y mediana difieren en gran magnitud,

implica distribuciones asimétricas-

)~(y

• Es el valor más frecuente, el que se observa mayor número de veces

• Pueden existir varios o ningún valor de moda para un solo conjunto de datos, la distribución puede ser:

Tendencia Central Moda

Liliana Recchioni. SIDIUNLAR

Dispersión

• Las principales medidas son:– Rango– Desviación Media– Varianza– Desviación Estándar– Coeficiente de Variación

Liliana Recchioni. SIDIUNLAR

Dispersión Rango

• Es la diferencia que existe entre el valor mas grande y el mas pequeño.

mínmáxrango

Liliana Recchioni. SIDIUNLAR

Dispersión Varianza poblacional

• La varianza poblacional se denota como σ²• Es el promedio de los cuadrados de las

distancias de los datos a su media aritmética. Es una SUMA DE CUADRADOS dividido N.

N

yy=

N

1i

2i

2

Liliana Recchioni. SIDIUNLAR

Dispersión Varianza muestral

• La varianza muestral se denota como S²• Se calcula igual que la varianza poblacional,

dividiendo entre n-1.

• Es un estimador insesgado. Funciona para cualquier tamaño de muestra.

1-n

yy=

n

1i

2i

2

S

Liliana Recchioni. SIDIUNLAR

Dispersión Desviación Estándar

• Mide la variación de los datos en términos absolutos, en la unidad de medida de la variable.

• Se interpreta como la distancia promedio de los datos a su media aritmética.

• Se calcula tomando la raíz cuadrada positiva de la varianza.

Liliana Recchioni. SIDIUNLAR

Dispersión Desviación Estándar

• Desviación Estándar Poblacional:

2

2S=S

• Desviación Estándar Muestral:

Liliana Recchioni. SIDIUNLAR

Regla Empírica

Solo cuando la forma de la distribución de los datos es simétrica (insesgada):

• aproximadamente el 68% de los datos (población) se encuentran a una desviación estándar alrededor de la media de la distribución :

Sy

Liliana Recchioni. SIDIUNLAR

• aproximadamente el 95% de los datos (población) se encuentran a 2 desviaciones estándar alrededor de la media de la distribución : 2Sy

3Sy

• aproximadamente el 99% de los datos (población) se encuentran a 3 desviaciones estándar alrededor de la media de la distribución :

Liliana Recchioni. SIDIUNLAR

Dispersión Coeficiente de Variación

• Mide la variación relativa de la variable con respecto a su promedio.

• Cuando deseamos comparar la dispersión de dos variables, necesitamos medir la magnitud de la desviación estándar en relación con la magnitud de la media. (distintas unidades o diferentes medias).

• Expresa a la variación de los datos como porcentaje de su promedio.

100.y

S=CV

Liliana Recchioni. SIDIUNLAR

Medidas de Posición

• Una medida de posición es el valor de la variable aleatoria hasta el que se acumula p% de las observaciones de la muestra.

• Siempre acumulamos de izquierda a derecha.

Veamos un histograma suavizado.

p%

Liliana Recchioni. SIDIUNLAR

Medidas de Posición

Las medidas de posición son:• Cuartiles: Son tres y delimitan al 25%, 50%, 75% de

los datos acumulados. Q1,Q2,Q3• Deciles: Son nueve y delimitan al 10%, 20%, ..., 90%

de los datos acumulados.• Quintiles: Son cuatro y delimitan al 20%, 40%, ... ,

80% de los datos acumulados.• Percentiles: Son 99 y delimitan al 1%, 2%, ... , 99%

de los datos acumulados.P1,P2,…P99

Liliana Recchioni. SIDIUNLAR

Ejemplo.Análisis descriptivo de Edad.Análisis-> estadísticos descriptivos-> Descriptivos

Estadísticos descriptivos

545 5.0 15.2 9.169 2.4688

545

Edad

N válido (según lista)

N Mínimo Máximo Media Desv. típ.

También puede usarse Análisis->frecuencias y sacar el tilde de tabla de frecuencias. Allí se puede solicitar los percentiles.

Liliana Recchioni. SIDIUNLAR

Ejercicio: Se realizó un examen clínico a alumnos de dos escuelas primarias. Los datos se encuentran el alumnos.sav.

Variables:

esc edad_sino VN VP (CUALITATIVAS)

edad peso talla (CUANTITATIVAS CONTINUAS)

Base de datos en spss.alumnos.sav

Liliana Recchioni. SIDIUNLAR

1. Colocar etiquetas a VN y VP.

Valor nutricionalNormal 1Desnutrición 1º 2Desnutrición 2º 3Desnutrición 3º 4Obesidad 5 Vicios posturalesNormal 1Escoliosis 2Cifosis 3Lordosis 4

Liliana Recchioni. SIDIUNLAR

1. Crear una nueva variable estatura, vale 1 si la talla es hasta 120cm y 2 si es mayor o igual 120cm.

2. Calcular IMC= peso/ talla2

3. Realizar un análisis descriptivo para talla.

Liliana Recchioni. SIDIUNLAR

Tablas de contingenciaTabla de contingencia ESC * Grado

Recuento

86 80 79 245

111 97 92 300

197 177 171 545

1

2

ESC

Total

1 3 6

Grado

Total

Analizar-> estadísticos descriptivos->tablas de contingencia.

Seleccionar la fila y la columna.Luego en opciones se puede elegir si se calculan porcentajes.Hay tres tipos de porcentajes.

Liliana Recchioni. SIDIUNLAR

En casillas podemos elegir porcentajes filas , columnas o total.

Liliana Recchioni. SIDIUNLAR

Liliana Recchioni. SIDIUNLAR

Tabla de contingencia ESC * Grado

86 80 79 245

35.1% 32.7% 32.2% 100.0%

111 97 92 300

37.0% 32.3% 30.7% 100.0%

197 177 171 545

36.1% 32.5% 31.4% 100.0%

Recuento

% de ESC

Recuento

% de ESC

Recuento

% de ESC

1

2

ESC

Total

1 3 6

Grado

Total

Porcentaje fila

Liliana Recchioni. SIDIUNLAR

Tabla de contingencia ESC * Grado

86 80 79 245

43.7% 45.2% 46.2% 45.0%

111 97 92 300

56.3% 54.8% 53.8% 55.0%

197 177 171 545

100.0% 100.0% 100.0% 100.0%

Recuento

% de Grado

Recuento

% de Grado

Recuento

% de Grado

1

2

ESC

Total

1 3 6

Grado

Total

Porcentaje columna

Liliana Recchioni. SIDIUNLAR

Tabla de contingencia ESC * Grado

86 80 79 245

15.8% 14.7% 14.5% 45.0%

111 97 92 300

20.4% 17.8% 16.9% 55.0%

197 177 171 545

36.1% 32.5% 31.4% 100.0%

Recuento

% del total

Recuento

% del total

Recuento

% del total

1

2

ESC

Total

1 3 6

Grado

Total

Porcentaje total

Liliana Recchioni. SIDIUNLAR

• Muchas gracias¡¡¡

• Hasta el próximo….