Download - Análisis Con SPSS / Statistical Analysis using SPSS

Análisis estadístico con SPSSAnálisis estadístico con SPSS Ricardo Rojas MonteroRicardo Rojas [email protected]@netscape.net

Análisis estadístico Análisis estadístico con SPSScon SPSS


Método de investigación y obtención de datoMétodo de investigación y obtención de dato

CualitativoCualitativo

CuantitativoCuantitativo

PanelPanel

LongitudinalLongitudinal

TransversalTransversal

ExperimentaciónExperimentación

ObservaciónObservación

EncuestasEncuestas

Técnicas proyectivasTécnicas proyectivas

Entrevistas a profundidadEntrevistas a profundidad

Sesiones de grupoSesiones de grupo


Características: Tipos y escalasCaracterísticas: Tipos y escalas

Caracte-Caracte-rísticarística

AtributoAtributo

VariableVariable

DiscretaDiscreta

ContinuaContinua

NaturalezaNaturaleza

NominalNominal

OrdinalOrdinal

IntervaloIntervalo

RazónRazón

Representación gráficaRepresentación gráficaCurtosisCurtosisAsimetríaAsimetríaDispersiónDispersión

Tendencia centralTendencia central

Representación gráficaRepresentación gráficaCurtosisCurtosisAsimetríaAsimetríaDispersiónDispersión

Tendencia centralTendencia central

Representación gráficaRepresentación gráficaCuartilesCuartilesLa modaLa moda

Distribución frecuenciasDistribución frecuencias

Representación gráficaRepresentación gráficaLa modaLa moda

Distribución frecuenciasDistribución frecuencias

EscalasEscalas


Análisis de datosAnálisis de datos

Análisis de Análisis de datosdatos

UnivariadoUnivariado

BivariadoBivariado

MultivariadoMultivariado

DescriptivoDescriptivo

InferencialInferencial


InferencialInferencial


InferencialInferencial ANOVAANOVARegresión MúltipleRegresión Múltiple

Análisis de conglomeradosAnálisis de conglomeradosAnálisis factorialAnálisis factorial

ANOVAANOVARegresión simpleRegresión simple

Diferencia de medidas tend centDiferencia de medidas tend cent

GráficasGráficasCoeficiente de correlaciónCoeficiente de correlación

Tabulación cruzadaTabulación cruzada

Pruebas de hipótesisPruebas de hipótesisEstimación por intervalosEstimación por intervalos

GráficasGráficasMedidas de dispersiónMedidas de dispersión

Medidas de tendencia centralMedidas de tendencia central


Análisis descriptivoAnálisis descriptivo


Escala nominal: Análisis de datosEscala nominal: Análisis de datosEl principal análisis de datos cuando nos encontramos con una escala nominal es el uso de estadísticas de frecuencias

Analizar →

Estadísticas descriptivas →

Frecuencias


En el cuadro de diálogo se indican las variables para las cuales necesitamos la tabla de frecuencias

• Valores percentiles• Medidas de dispersión• Medidas de tendencia

central• Gráficas de distribución

La opción de estadísticas permite diversos análisis estadísticos como:

Seleccionamos: Estadísticas

Escala nominal: Análisis de datosEscala nominal: Análisis de datos


La moda es la una medida de tendencia central que indica la categoría con mayor número de frecuenciaa y la indicada para la escala nominal…

Seleccionamos: Moda →Continuar…



Una forma relevante de analizar los datos de escala nominal es a través del método gráfico, una forma de generarlo es por medio del cuadro de diálogo de Frecuencias

• Gráficas de barras• Gráficas de Pie• Histogramas

•Curva normal

La opción de gráficos permite presentar los resultados en valores porcentuales o frecuencias en:

Seleccionamos: Gráfica



La gráfica de barras es la de mayor uso y la más recomendada para presentar el análisis de este tipo de variables. El caso del histograma no tiene sentido en el caso de variables en escala nominal.

Seleccionamos: Gráfica de barras →Frecuencias →Continuar…



La tabla de resultados muestra la frecuencia de las categorías y el porcentaje que representan del total

Cuando no existen valores perdidos el porcentaje y el porcentaje válido son los mismos



Escala nominal: Presentación gráficaEscala nominal: Presentación gráficaLa gráfica, que se presenta en la hoja de resultados, requiere en algunas ocasiones formato adicional para una presentación más profesional…

Damos doble “Click” sobre el gráfico →Se abrirá automáticamente el editor de gráficos


Escala nominal: Presentación gráficaEscala nominal: Presentación gráficaUna forma fácil de ello es a través de los cuadros de diálogo que presenta el programa

Damos doble “Click” con el botón derecho sobre el las barras del gráfico→Mostrar etiquetas de datos


Escala nominal: Presentación gráficaEscala nominal: Presentación gráficaLa pestaña de “Valor de datos” permite mostrar los valores tanto de frecuencia como de porcentaje..

• Etiquetas y valor de datos

• Categorías (fusionar, excluir o cambiar de orden)

• Modificar los colores del relleno y del borde de las barras y del texto

• Cambiar el tamaño del gráfico

La ventana de Propiedades permite modificar


Escala nominal: Presentación gráficaEscala nominal: Presentación gráfica


Escala ordinal: Análisis de datosEscala ordinal: Análisis de datosUn caso clásico es cuando nos encontramos fuente a variables que expresan opinión. La distribución de frecuencias se realiza igual que en el caso de la escala nominal.

• La Moda• Cuartiles

En el cuadro de diálogo de Estadísticas podemos seleccionamos:


Escala ordinal: Análisis de datosEscala ordinal: Análisis de datosAl igual que en el caso de la escala nominal, la representación gráfica puede ser por diagramas de Pie o diagramas de frecuencias

Gráfica de Pie→Porcentajes →Continuar…

En el cuadro de diálogo Gráficas, seleccionamos:


Escala ordinal: Análisis de datosEscala ordinal: Análisis de datos


Escala ordinal: Presentación gráficaEscala ordinal: Presentación gráficaEn SPSS 13.0, el gráfico presenta los valores perdidos dentro del gráfico, una solución sencilla a eso, es crear el gráfico directamente…

Gráficas→Pie→Resumen para grupos de casos →En la casilla de opciones asegurarse que no está activa la celda “Mostrar grupos definidos por valores perdidos”

En el menú principal seleccionamos:

Menú de Análisis

Menú de Gráficas


Análisis descriptivoAnálisis descriptivoUna VariableUna Variable


Escala intervalo: Análisis de datosEscala intervalo: Análisis de datosUna variable discreta puede adoptar los valores de: 1,2,3,…,n. Para su análisis, en el menú de Análisis, estadísticas descriptivas, frecuencias, en la sección de estadísticas seleccionamos todas aquellas estadísticas que nos son de interés.

Seleccionamos: Estadísticas


Asímetría: Una medida de asimetría de una distribución. Toma el valor de cero cuando es simétrica; negativo cuando está sesgada a la izquierda, positivo cuando está sesgada a la derecha.

Curtosis: Una medida de la extensión del conglomerado de observaciones con respecto a un punto. Toma el valor de cero frente a la distribución normal; positivo frente a una mayor conglomeración y colas largas; negativo frente a observaciones poco conglomeradas y colas cortas

Estadísticas de Distribución…

Escala intervalo: Análisis de datosEscala intervalo: Análisis de datos


Statistics

p5_1185

0

77.02

17.942

5.00

0

244.040

59555.695

3.535

.179

10.683

.355

999

0

999

14249

.00

5.00

30.00

Valid

Missing

N

Mean

Std. Error of Mean

Median

Mode

Std. Deviation

Variance

Skewness

Std. Error of Skewness

Kurtosis

Std. Error of Kurtosis

Range

Minimum

Maximum

Sum

25

50

75

Percentiles

Escala intervalo: Análisis de datosEscala intervalo: Análisis de datosLos resultados que arroja el programa se presenta como:

Sesgada a la derecha

Muy agrupadas a la media pero los datos se encuentran extendidos


Escala intervalo: Análisis de datosEscala intervalo: Análisis de datos


Escala Razón: Análisis de datosEscala Razón: Análisis de datosUna variable continua puede adoptar los valores infinitos entre n y n+1. Las variables continuas tienen la característica de facilitar el estudio descriptivo de normalidad.

• Perfectamente simétrica, con eje de simetría en la vertical que para por la media (coeficiente de asimetría = 0)

• Dominio de la variable X de -∞ a + ∞• Asintótica al eje de abcisas (f(x)>0)• Mesocúrvica (coeficiente de curtosis=0).

Rasgos fundamentales

f(x)

mediax

Una distribución de media 0 y D.E. 1 se obtiene al tipificar cualquier variable que siga la distribución normal


Escala Razón: Análisis de datosEscala Razón: Análisis de datosPara verificar que una variable analizada tiene una distribución normal, lo más adecuado es:

•Tipificar la variable

•Calcular la media y la desviación estándar de la variable tipificada, y verificar si sus valores son 0 y 1 respectivamente.

•Calcular los coeficientes de asimetría y curtosis y comprobar si los valores son 0.

Z=X-m

δ

Otra forma de hacerlo es trazando sobre el histograma de la variable la curva de la distribución normal y probando que se ajusta.


Escala Razón: Análisis de datosEscala Razón: Análisis de datosLa representación gráfica se elige en el cuadro de diálogo Frecuencias: Gráficos. Elegimos la presentación del histograma con la curva de normalidad


Escala Razón: Análisis de datosEscala Razón: Análisis de datosEl histograma de frecuencias, junto con la curva normal se muestran a continuación.


Escala Razón: Análisis de datosEscala Razón: Análisis de datosOtra forma de analizar la normalidad de los datos es a través del análisis descriptivo.

Análisis→Estadísticas descriptivas→Descriptivos



Escala Razón: Análisis de datosEscala Razón: Análisis de datos

•Media•Suma•Dispersión

•Desv. Estand.•Mínimo•Máx•Varianza•Rango •Error Estand de la media

•Distribución•Asimetría•Curtosis

El menú opciones permite estadísticos tales como:

El análisis descriptivo es una forma fácil de obtener valores tipificados sin tener que generar los valores a través de cálculos complicados.


Descriptive Statistics

86 3 100 58.29 29.415

86

p9

Valid N (listwise)

N Minimum Maximum Mean Std. Deviation

Escala Razón: Análisis de datosEscala Razón: Análisis de datosLos valores que obtenemos son:

Los estadísticos descriptivos

Los datos tipificados


Escala Razón: Análisis gráficoEscala Razón: Análisis gráficoUn análisis gráfico que nos ayuda a entender el comportamiento de una variale en el tiempo son las gráficas de líneas (secuencia) y los diagramas de caja y brazo…. Para este análisis es importante definir las fechas en SPSS, para ello….


Escala Razón: Análisis gráficoEscala Razón: Análisis gráfico

Seleccionamos del Menú:- Gráficos- Secuencias



En el menú de diálogo seleccionamos la variable a graficar….

Y la etiqueta para el eje temporal..



El resultado es una gráfica que nos presenta el comportamiento de la variable en el tiempo….


Escala Razón: Análisis gráficoEscala Razón: Análisis gráficoSin embargo, la utilización de gráficas de “caja y brazo” permiten conocer el comportamiento estacional y la varianza de la variable de interés. Para ello….

Seleccionamos: - Gráficas- Boxplot

En el menú de diálogo: - Simple- Resumen por grupos de casos



Seleccionamos la variable y la categoría….



El nuevo gráfico permite observar el comportamiento de tendencia en el tiempo además de su variabilidad…



Para observar la estacionalidad mensual realizamos el mismo procedimiento pero en esta ocasión con categorías mensuales….



El gráfico muestra el comportamiento estacional de la variable en el año..

Esto es, En los meses de enero son los de mayor inflación con alta varianza, sin embargo en los meses julio la inflación es la más baja del año…


Prueba de hipótesisPrueba de hipótesis(Media estadística)(Media estadística)


.01.01 .05.05

99%99% 95%95%

Región de aceptación de HRegión de aceptación de H00

Regla de decisión para prueba de hipótesis en Regla de decisión para prueba de hipótesis en SPSSSPSS

αα==

Nivel de confianzaNivel de confianza

.10.10

90%90%

P-valueP-value .015.015 .07.07

No se rechaza HNo se rechaza H00 con un nivel de con un nivel de

confianza del 99%confianza del 99%Se rechaza HSe rechaza H00 con un nivel de con un nivel de

confianza del 95%confianza del 95%

No se rechaza HNo se rechaza H00 con un nivel de con un nivel de

confianza del 95%confianza del 95%Se rechaza HSe rechaza H00 con un nivel de con un nivel de

confianza del 90%confianza del 90%

Una forma sencilla para tomar una decisión de rechazar o aceptar una hipótesis nula en SPSS es simplemente comparando el αα con el p-value que el programa proporciona. Si el αα > p-value entonces se rechaza la hipótesis nula..

Cuanto más pequeño Cuanto más pequeño sea el p-value mayor sea el p-value mayor evidencia existe en evidencia existe en

contra de la Hcontra de la H00


Regla de decisión para prueba de hipótesis en Regla de decisión para prueba de hipótesis en SPSSSPSS

Rechazar H0 cuando

α > p value


Prueba tPrueba tLa prueba t es una prueba paramétrica usada para determinar si dos medias son significativamente diferentes la una de la otra. Existen tres tipos de pruebas t:

• Prueba t de muestra simple. Determina si la media observad es diferente de un valor dado.

• Prueba t de independencia. Compara las medias de dos grupos independientes de individuos.

• Prueba t pareada. Compara las medias de dos conjuntos de observaciones de los mismos individuos o de pares de individuos.

Todas estas pruebas requieren que los datos sean por lo menos de escala de INTERVALO, NORMALMENTE DISTRIUIDAS e IGUAL VARIANZA.


La prueba t se utiliza en el análisis de muestreos cuando el número de casos es menos a 30..

Supongamos que obtenemos una muestra de una población normal con media µ y varianza δ…

Si x es el promedio de las n observaciones y la varianza será s

Prueba tPrueba t

Grados de Libertad = ∞

Grados de Libertad = 10

Grados de Libertad = 1

f(x)

mediax

La apariencia de la distribución t es similar a la de la normal estándar, es decir, simétrica y unimodal.

Sin embargo la distribución t tiene colas más amplias que la normal.

Pero a medida que los grados de libertad aumentan la distribución se asemeja a la normal.


Prueba t de muestra simplePrueba t de muestra simpleSe afirma que una población tiene una media de 1, para afirma lo anterior se toma una muestra de 25 casos para verificar lo dicho..

H0: mx= m

La hipótesis que probaremos es que la media de nuestra muestra es igual a una media que nosotros creemos…

Análisis→Comparar medias →Prueba T para una media

En el menú principal:


Prueba t de muestra simplePrueba t de muestra simpleEn el cuadro de diálogo de la prueba T para una media seleccionamos la variable a ser analizada

El botón de “Opciones” permite establecer el intervalo de confianza para nuestra prueba

El valor de prueba es el valor que afirmamos que es la media poblacional…


Prueba t de muestra simplePrueba t de muestra simple

Con 95% de confianza sabemos que la diferencia entre la media poblacional y la muestral es de -.2697 y 0.225

One-Sample Test

-1.745 24 .094 -.12360 -.2697 .0225Nicotinat df Sig. (2-tailed)

MeanDifference Lower Upper

95% ConfidenceInterval of the

Difference

Test Value = 1

En la hoja de resultados de SPSS observamos la solución a la prueba…

En este caso se rechaza la Hipótesis nulaH0: mx=m

Por lo tanto, podemos afirmar que la media poblacional es igual a la media muestral

α > p value

Regla de rechazo:

Para un nivel de confianza del 95%, rechazamos hipótesis nula si,

0.05 >0.094

No rechazamos lo hipótesis nula


Prueba t de independenciaPrueba t de independenciaLa prueba de independencia compara el desempeño o evaluación de las unidades de análisis de dos grupos. Esta prueba debe ser utilizada cuando los datos son paramétricos y se obtuvieron por medio de un diseño de grupos independientes.

Es posible para construir las dos poblaciones utilizar tanto un atributo (SI/NO) como una variable (edad: <18 / >=18)

Para verificar la hipótesis nula existen dos estadísticos de prueba diferentes de acuerdo a:• Igualdad de varianza• Desigualdad de varianza

Por lo tanto, es necesario realizar una prueba de hipótesis sobre la igualdad de las varianza a través de la prueba de Levene

H0: m1 = m2


Para realizar la prueba de independencia sobre la diferencia de las medias seleccionamos..

Prueba t de independenciaPrueba t de independencia

Análisis→Comparar medias →Prueba T para muestras independientes



Prueba t de independenciaPrueba t de independenciaSPSS presenta el cuadro de diálogo de prueba T de muestras independientes. A la izquierda del cuadro aparece la lista de variables..

Seleccionamos la variable a comparar, y…

Definimos los grupos, esto es, le indicamos al programa cuáles son los valores con los cuales codificamos los grupos a comparar


Independent Samples Test

1.150 .285 .035 183 .972 .110 3.146 -6.098 6.318

.032 106.369 .974 .110 3.397 -6.625 6.845

Equal variancesassumed

Equal variancesnot assumed

p7F Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Prueba t de independenciaPrueba t de independenciaNo es necesario especificar al programa que realice la prueba de Levene, pues esta se realiza automáticamente y se presenta en el resultado. Si rechazamos la H0 de varianzas iguales, entonces, el p-value para la prueba T será el de “Varianzas iguales no asumidas”…

α > p value

Regla de rechazo:


0.05 >.285

No rechazamos lo hipótesis nula de varianzas iguales

α > p value

Regla de rechazo:


0.05 >.972

No rechazamos lo hipótesis nula de igualdad de medias de los grupos


Análisis de VarianzaAnálisis de Varianza


Análisis de varianzaAnálisis de varianzaEs una de las técnicas más utilizada en los análisis de los datos de diseños experimentales y es una extensión de la prueba T de Stundent para dos muestras…

Se utiliza cuando queremos contrastar más de dos medias

H0 : m1 = m2=m3= m4=….=mn

El procedimiento del ANOVA permite dividir la varianza de la variable dependiente en dos o más componentes, cada uno de los cuales puede ser atribuido a una fuente (variable o factor) identificable.

Los modelos que permiten construir el ANOVA se resumen como:

Valor Observado = Σ (Efectos atribuibles) + Σ (Efectos no atribuibles o residuales)


Análisis de varianza. ModelosAnálisis de varianza. ModelosLos modelos del Análisis de Varianza se clasifican de acuerdo a tres criterios: el número de factores, el muestreo de niveles y el tipo de aleatorización. En este caso sólo nos enfocaremos a los modelos por Número de Factores…

1. Factor único de clasificación. Los experimentos que utilizan sólo una variables independiente y una variable dependiente se analizan mediante varianza de un factor o unidireccional (one way).

2. El análisis de Varianza con dos factores de clasificación utilizado para examinar el efecto de dos factores en una variable observada.


Análisis de varianza. Factor únicoAnálisis de varianza. Factor únicoEl procedimiento de ANOVA de un factor genera un análisis para una variable dependiente cuantitativa respecto a una única variable de factor, la variable independiente. Se utiliza para contrastar la hipótesis de si las medias en varios grupos son iguales.

Análisis→Comparar medias →ANOVA de un factor



En el siguiente ejemplo, deseamos conocer si existe una diferencia en la esperanza de vida por regiones económicas, para ello…

Análisis de varianza. Factor únicoAnálisis de varianza. Factor único

Factor: Región

En el cuadro de diálogo seleccionamos como:

Variable dependiente: esperanza de vida


ANOVA

Average female life expectancy

7568.810 5 1513.762 34.636 .000

4501.539 103 43.704

12070.349 108

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

Análisis de varianza. Factor únicoAnálisis de varianza. Factor únicoLa hoja de resultados muestra el análisis de ANOVA…

α > p value

Regla de rechazo:


0.01 >.000

Rechazamos lo hipótesis nula de igualdad de medias de los grupos

Recordemos que la Hipótesis Nula es:

H0 : m1 = m2=m3= m4=….=mn


Análisis de varianza. Factor únicoAnálisis de varianza. Factor únicoAhora que conocemos que sí existe una diferencia por medio de la variable independiente o factor, el siguiente paso es conocer cuáles son las medias que difieren, para ello…

Seleccionamos el botón “Post Hoc de Comparación Múltiple”

Bajo supuesto que las varianzas no son iguales, seleccionamos la prueba T2 de Tamanhe que se basa en la t de Student


Multiple Comparisons

Dependent Variable: Average female life expectancy

Tamhane

4.095* .393 .000 2.84 5.35

12.683* 2.653 .003 3.61 21.76

25.832* 1.848 .000 19.64 32.03

8.507* 1.122 .000 4.72 12.29

8.333* 1.633 .001 2.95 13.72

-4.095* .393 .000 -5.35 -2.84

8.588 2.657 .073 -.50 17.67

21.737* 1.854 .000 15.53 27.94

4.412* 1.131 .015 .61 8.21

4.238 1.639 .228 -1.16 9.64

-12.683* 2.653 .003 -21.76 -3.61

-8.588 2.657 .073 -17.67 .50

13.149* 3.213 .005 2.91 23.39

-4.176 2.857 .925 -13.59 5.23

-4.350 3.094 .940 -14.28 5.58

-25.832* 1.848 .000 -32.03 -19.64

-21.737* 1.854 .000 -27.94 -15.53

-13.149* 3.213 .005 -23.39 -2.91

-17.325* 2.131 .000 -24.12 -10.53

-17.499* 2.439 .000 -25.13 -9.86

-8.507* 1.122 .000 -12.29 -4.72

-4.412* 1.131 .015 -8.21 -.61

4.176 2.857 .925 -5.23 13.59

17.325* 2.131 .000 10.53 24.12

-.174 1.947 1.000 -6.31 5.96

-8.333* 1.633 .001 -13.72 -2.95

-4.238 1.639 .228 -9.64 1.16

4.350 3.094 .940 -5.58 14.28

17.499* 2.439 .000 9.86 25.13

.174 1.947 1.000 -5.96 6.31

(J) Region oreconomic groupEast Europe

Pacific/Asia

Africa

Middle East

Latn America

OECD

Pacific/Asia

Africa

Middle East

Latn America

OECD

East Europe

Africa

Middle East

Latn America

OECD

East Europe

Pacific/Asia

Middle East

Latn America

OECD

East Europe

Pacific/Asia

Africa

Latn America

OECD

East Europe

Pacific/Asia

Africa

Middle East

(I) Region oreconomic groupOECD

East Europe

Pacific/Asia

Africa

Middle East

Latn America

MeanDifference

(I-J) Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

The mean difference is significant at the .05 level.*.

Recordemos que la Hipótesis Nula es:

H0 : mi = mj

Análisis de varianza. Factor únicoAnálisis de varianza. Factor único

α > p value

Regla de rechazo:


0.01 >p value

Para cada uno de los casos:


Análisis de varianza. Dos factoresAnálisis de varianza. Dos factoresEl análisis de Varianza con dos factores de clasificación sirve para examinar el efecto de dos factores en una variable observada.

Este tipo de diseño presenta varias ventajas:

• Estudio de los efectos principales:

• Eficiencia. Permite analizar los efectores de varios factores simultáneamente y sus efectos de interacción

• Control sobre factores adicionales. Las variables independientes sirven como variables de control.

• Estudio del efecto interactivo:

• Estudio de la interacción. La inclusión de varios factores en el diseño permite investigar la interacción de los factores, y sus efectos sobre la variable observada.


Análisis de varianza. Dos factoresAnálisis de varianza. Dos factoresLas hipótesis que se ponen a prueba en el Análisis de varianza de dos factores son:

Filas:

H0: m1= m2 = m3 = … = mf

La media de las f poblaciones contempladas en las filas son iguales, es decir, no hay un efecto por el primer factor

Columnas:

H0: m1= m2 = m3 = … = mc

La media de las c poblaciones contempladas en las columnas son iguales, es decir, no hay un efecto por el segundo factor

Interacción:

H0: todos (mij - mi - mj + m)=0

No hay una diferencia entre las medias de las poblaciones que no pueda ser explicado por el efecto de filas ni por el efecto de columnas


Análisis de varianza. Dos factoresAnálisis de varianza. Dos factoresEjemplo. Se desea conocer si existe una diferencia en salarios recibidos al graduarse de la Universidad, se cree que la diferencia de salarios está relacionada con el género y la facultada donde estudiaron los graduados..

Al analizar las medias de la muestra obtenida se obtuvieron los siguientes gráficos:


Al analizar el efecto entre colegio y género, parece que existe una diferencia, no sólo por el género y el colegio, sino también por la interacción entre género y facultad del egresado

Análisis de varianza. Dos factoresAnálisis de varianza. Dos factores


Para comprobar si existe una diferencia de salario por el tipo de facultad y el género del egresado, procedemos a realizar un análisis de ANOVA de dos factores para ello..

Análisis de varianza. Dos factoresAnálisis de varianza. Dos factores

Análisis→Modelo Lineal General→Univariado



Análisis de varianza. Dos factoresAnálisis de varianza. Dos factoresEn el cuadro de diálogo seleccionamos las variables a analizar…

Variables independientes: Género y Colegio

Variable dependiente: Salarios


Análisis de varianza. Dos factoresAnálisis de varianza. Dos factoresEn la hoja de resultados observamos…

α > p value

Regla de rechazo:


0.01 >p value

Para cada uno de los casos:

Tests of Between-Subjects Effects

Dependent Variable: Starting Salary

1.033E+010a 15 688932388.8 17.357 .000

2.476E+010 1 2.476E+010 623.757 .000

6701435981 7 957347997.3 24.120 .000

20147204.5 1 20147204.51 .508 .476

381003159 7 54429022.74 1.371 .214

4.303E+010 1084 39691430.21

8.006E+011 1100

5.336E+010 1099

SourceCorrected Model

Intercept

college

gender

college * gender

Error

Total

Corrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = .194 (Adjusted R Squared = .183)a.

Si existe una diferencia de salarios por tipo de facultad

No hay una diferencia significativa por el Género del graduado

No hay una diferencia significativa por el Género del graduado y el colegio del que egresó


Análisis de Tablas de Análisis de Tablas de ContingenciaContingencia


La tabla de contingencia es una forma de representar N casos clasificados con arreglo a dos criterios. Es una primera forma de observar si existe una diferencia en las categorías de la variable dependiente. Pues a través de ella podemos calcular:

1) La significancia en la asociación y 2) La fortaleza de la asociación

100%100%

50%50%

MujerMujer

100%100%

25%25%

HombreHombre

Tablas de contingenciaTablas de contingencia

El porcentaje en las tablas de contingencia deben establecerse en las columnas o filas donde se encuentra la variable independiente…

Se puede observar que existe una diferencia en el ingreso por la variable de sexo..

100%100%

11-2011-20

0-100-10

Variable independienteVariable independiente

Va

ri

ab

le

V

ar

ia

bl

e

de

pe

nd

ie

nt

ed

ep

en

di

en

te

(I

ng

re

so

, m

il

es

)(

In

gr

es

o,

mi

le

s)


Tablas de contingenciaTablas de contingenciaEn SPSS, el análisis de tablas de contingencia se solicita seleccionando…

Análisis→Estadísticas descriptivas→Tablas de contingencia



Tablas de contingenciaTablas de contingenciaEn el cuadro de diálogo de la tabla de contingencia debemos especificar la variable que se presenta en columna y en fila…

En el botón de “Celdas” es donde se debe especificar cómo será presentado el porcentaje de nuestra tabla



p1 * tipo Crosstabulation

% within tipo

1.2% 1.0% 1.1%

2.4% 2.9% 2.7%

15.9% 13.6% 14.6%

51.2% 48.5% 49.7%

29.3% 34.0% 31.9%

100.0% 100.0% 100.0%

"(1) Muy malo"

"(2) Malo"

"(3) Regular"

"(4) Bueno"

"(5) Muy bueno"

p1

Total

"Nacional" "Internacional"

tipo

Total

En el cuadro de diálogo de la tabla de contingencia debemos especificar la variable que se presenta en columna y en fila…

Podemos decir a simple vista que tal vez no existe una diferencia en la evaluación global (P1) por el tipo de empresa…

Sin embargo, para ello es necesario sustentarlo con un análisis estadístico


Tablas de contingencia. Prueba de Tablas de contingencia. Prueba de independenciaindependencia

Para conocer la significancia en la asociación de las variables, el análisis que debe realizarse es la prueba de independencia, esto es, probar que la que no existe asociación entre las columnas y las filas de la tabla. Por

Ho: Son independientes

El estadístico de prueba para verificar esta hipótesis es el denominado Ji-cuadrada de Pearson, el cual presenta la forma:

1- 1- αα

Región de aceptación

Σ(FO-FT)2

FT

Región de rechazo

1- α

El nivel de confianza está dado por:

La probabilidad de aceptar la hipótesis nula cuando es verdadera.


1-p value > 1-α


Tablas de contingencia. Prueba de Tablas de contingencia. Prueba de independenciaindependencia

SPSS permite dos pruebas de independencia que depende de los valores de nuestras variables…

• Chi-cuadrada. Cuando tenemos tablas de contingencia con cualquier cantidad de columnas y filas.

• Estadística de Cochran’s & Mantel-Haenszel. Prueba de independencia cuando la variable dependiente e independiente son dicotómicas.

Pruebas de independencia


Tablas de contingenciaTablas de contingenciaEl estadístico de Ji-Cuadrado se solicita a través del botón de “Estadísticas”…


Tablas de contingenciaTablas de contingenciaSi el valor del estadístico de prueba pertenece a la región de aceptación, con confianza 1- α, se acepta Ho, en caso contrario se rechaza…

Chi-Square Tests

.608a 4 .962

.609 4 .962

.314 1 .575

185

Pearson Chi-Square

Likelihood Ratio

Linear-by-LinearAssociation

N of Valid Cases

Value dfAsymp. Sig.

(2-sided)

4 cells (40.0%) have expected count less than 5. Theminimum expected count is .89.

a.


1-p value > 90%3.8% >90%

Por lo tanto no podemos rechazar la Ho…

Las respuestas de los grupos son independientes de cómo les

fue en la feria!!!…Si alguna frecuencia teórica adopta valores muy pequeños el resultado puede alcanzar valores muy elevados y conducir un rechazo o aceptación equívoco. Por lo que…

es recomendable recodificar la tabla o aumentar el número de casos observados!!!



p1 * p15 Crosstabulation

% within p15

.9% 1.5% 1.1%

10.0% 3.7% 2.7%

30.0% 18.3% 6.2% 14.6%

100.0% 50.0% 56.9% 36.9% 49.7%

10.0% 20.2% 55.4% 31.9%

100.0% 100.0% 100.0% 100.0% 100.0%

"(1) Muy malo"

"(2) Malo"

"(3) Regular"

"(4) Bueno"

"(5) Muy bueno"

p1

Total

"(1) NadaProductiva"

"(2) PocoProductiva"

"(3)Productiva"

"(4) MuyProductiva"

p15

Total

Originalmente, la tabla de contingencia se encuentra de la siguiente forma…

Por lo que es necesario recodificar las variables


Tablas de contingenciaTablas de contingenciaPara recodificar, en el menú principal seleccionamos “Transformar”, “Recodificar” y la opción “En la misma variable”

En el cuadro de diálogo de “Recodificar en la misma variable” introducimos la variable a recodificar y el botón “Viejos y nuevos valores”


SPSS ofrece una manera sencilla de cmabiar los viejos y nuevos valores, así como cambios por rangos y otras opciones

Una vez cambiados los valores es necesario cambiar las etiquetas de las variables directamente en la hoja de “Vista de Variables”



p1 * p15 Crosstabulation

% within p15

36.4% 17.2% 18.4%

63.6% 82.8% 81.6%

100.0% 100.0% 100.0%

"(1) Muy malo/Malo"

"(3) Bueno/Muy Bueno"

p1

Total

"(1) Nada/Poco

Productiva"

"(2)Productiva/

MuyProductiva"

p15

Total


1- p value > 1-α 1-(.082) >90%91.8%>90%

Por lo tanto rechazamos Ho…

Las respuestas de los grupos NO SON INDEPENDIENTES

Tabla de contingenciaTabla de contingenciaRealizado la recodificación, y volviendo a crear nuestras tablas de contingencia, podemos observar que nuestra conclusión de las variables es diferente..


• Nominal. • Medidas de asociación

•Coeficiente de contingencia. •V deCramer.

•Medidas de reducción al error (predicción)• Lambda. •Coeficiente de incertidumbre.

• Ordinal•Medidas de asociación

•Gamma•Tau de Kendall

•Medidas de reducción al error (predicción)•D de Sommers

• Nominal por intervalo•Eta. Análisis de una variable categórica codificada numéricamente y una variable cuantitativa

Conociendo que existe una asociación significativa entre las variables analizadas (en términos técnicos, entre las columnas y las filas). El siguiente paso importante es:

analizar la fortaleza de la asociación

Tabla de contingencia. Pruebas de asociaciónTabla de contingencia. Pruebas de asociación


Tablas de contingencia. LambdaTablas de contingencia. LambdaPara analizar si estamos realizando un pronóstico incorrecto con respecto a la variable dependiente e independiente utilizamos el estadístico LAMBDA

El coeficiente de lambda se calcula a través de la fórmula:

λ=P(I1) – P(I2)

P(I1)

Donde:

P(I1) Es la probabilidad de realizar un pronóstico incorrecto cuando sólo se considera la información correspondiente a la característica dependiente

P(I2) Es la probabilidad de realizar un pronóstico incorrecto cuando se considera la información adicional correspondiente a otra característica

El coeficiente de lambda siempre se mueve de 0 a 10<λ<1

λ=0 Significa que la característica independiente no es útil para pronosticar la dependienteλ=1 Significa que la característica independiente es perfecta para realizar el pronóstico


Tablas de contingenciaTablas de contingenciaEl análisis de Lambda aparece en el botón de “Estadísticas” del menú de diálogo del análisis de tabla cruzada..


Análisis de CorrelaciónAnálisis de Correlación


Análisis de correlaciónAnálisis de correlaciónEl análisis de correlación tiene por objeto estudiar y cuantificar el grado de ajuste o asociación entre un conjunto de puntos correspondientes a la población o muestra observada

Si sólo se considera una variable independiente

y= f(x), Se utiliza el análisis de correlación simple

En el caso de más de una variable independiente

y= f(x,z,w,….) Se utiliza el análisis de correlación Múltiple

Para ello podemos realizar correlaciones bivaridas o correlaciones parciales


SPSS ofrece tres pruebas para medir la correlación de los datos de acuerdo a tipo de variable analizada..

Análisis de correlaciónAnálisis de correlación

• Pearson. Cuando las variables son contínuas

• Spearman. Cuando utilizamos los rangos de las observaciones o valores en orden que les corresponden

• Tau de Kendall. Medida de asociación entre dos atributos sometidos a escala ordinal


Análisis de FiabilidadAnálisis de Fiabilidad


El análisis de fiabilidad surge por la necesidad de conocer si un indicador empírico (o un conjunto de ellos) representa adecuadamente un determinado concepto teórico.

Análisis de fiabilidadAnálisis de fiabilidad

Es recomendable que cualquier procedimiento o instrumento de medida goce de las propiedades:

• Fiabilidad (reliability): Hace referencia al hecho de que un experimento, prueba o procedimiento de medida arroja los mismo resultados al realizar pruebas repetidas

• Validez: Es la relación entre el concepto y el indicador

La fiabilidades está relacionado con el tema empírico y la validez con el tema teórico.


Análisis de fiabilidadAnálisis de fiabilidadExisten diferentes formas de medir la fiabilidad de una escala, pero el Coeficiente Alfa de Cronbach es uno de los más utilizados para este tipo de pruebas

El coeficiente de Cronbach mide:

Que tan bien un conjunto de preguntas (o variables) miden la construcción de una dimensión potencial. Por ende..

Si los datos tienen una estructura multidimensional el Alfa de Conbach será bajo

El alfa de Cronbach no es una prueba estadística… es un coeficiente de fiabilidad


Análisis de fiabilidadAnálisis de fiabilidadEl coeficiente Alfa, al interpretarse en términos de correlación, varía de 0 a 1(Si se obtienen valores negativos se ha violado el modelo de fiabilidad)

La fórmula que permite calcular el alfa de Cronbach es:

K cov / var

1+((k-1)cov/var)α =

Donde:K : Número de ítems en la escalacov: Covarianza media entre ítemvar: Varianza media de los ítems

Si los ítems están tipificados, la fórmula se simplifica a:

Kr

1+(k-1)rα =Donde:

r : es la correlación media entre ítems


Análisis de fiabilidadAnálisis de fiabilidadEjemplo analizando la organización de un evento. Se desea conocer cómo evalúan la organización de un evento para ello se realiza una “batería” de preguntas relacionadas con este concepto.

Análisis→Escala→Análisis de fiabilidad



Análisis de fiabilidadAnálisis de fiabilidadEn el cuadro de diálogo de análisis de fiabilidad, se seleccionan los ítems que desea considerar, y seleccionamos el modelo alfa.

•Estadísticas descriptivas•Estadísticas de resumen•ANOVA•Estadísticas Inter-ítem

En el menú de estadísticas podemos encontrar una mayor interactividad con la prueba, así como una mayor versatilidad de análisis:


Análisis de fiabilidadAnálisis de fiabilidadUna de las estadísticas más utilizadas en la práctica es la “Escala si el ítem es eliminado”, la cual nos permite mejorar nuestra escala al eliminar o aumentar ítems para medir nuestro concepto

T2 de Hotelling. Genera una prueba con Ho: todos los ítems tienen la misma mediaPrueba de adicionalidad de Turkey. Ho: No existe una interacción multiplicativa entre los ítems

Estadísticas adicionales


Item-Total Statistics

44.83 129.513 .499 .580 .810

45.06 121.094 .603 .640 .800

45.00 128.163 .505 .332 .810

44.81 144.212 .273 .286 .824

44.91 141.906 .437 .436 .816

45.31 140.879 .387 .402 .818

44.95 141.497 .440 .392 .816

44.95 122.231 .580 .816 .803

44.99 120.772 .607 .827 .800

45.42 113.256 .627 .556 .800

44.55 144.238 .393 .337 .819

44.53 145.033 .429 .434 .819

44.99 140.663 .363 .239 .819

p14_1

p14_2

p14_3

p14_4

p14_5

p14_6

p14_7

p14_8

p14_9

p14_10

p14_11

p14_12

p14_13

Scale Mean ifItem Deleted

ScaleVariance if

Item Deleted

CorrectedItem-TotalCorrelation

SquaredMultiple

Correlation

Cronbach'sAlpha if Item

Deleted

El alfa de Cronbach con los datos actuales se muestra en la tabla de “Estadísiticas de Fiabilidad”, mientras que las posibles alfas se muestran en las “Estadísticas de ítem-total”


Reliability Statistics

.824 .833 13

Cronbach'sAlpha

Cronbach'sAlpha Based

onStandardized

Items N of Items

Este sería el alfa si no contemplamos la pregunta p14_1



La fórmula que permite calcular el alfa de Cronbach es:

K cov / var

1+(k-1)cov/varα =

Donde:K : Número de ítems en la escala (13)cov: Covarianza media entre ítem (.752)var: Varianza media de los ítems (2.835)

Si realizamos el ejercicio manualmente, podemos comprobar el resultado anterior:

13 .752 / 2.835

1+((13-1).752/2.835.824 =


Análisis de RegresiónAnálisis de Regresión


IntroducciónIntroducciónEstudios anteriores han demostrado que incrementos en el contenido de alquitrán y nicotina en un cigarrillo están acompañados de incrementos en el Monóxido de Carbono emitidos*

*Fuente: Federal Trade Commision. “Tar”, nicotine and carbon monoxide of the smoke of 1294 varieties of domestic cigarretes for the year *Fuente: Federal Trade Commision. “Tar”, nicotine and carbon monoxide of the smoke of 1294 varieties of domestic cigarretes for the year 19981998

Objetivo: Explicar relación entre el contenido de nicotina, alquitrán y el Monóxido de Carbono.

Diseño de Investigación: Transversal utilizando análisis de regresión lineal múltiple por mínimos cuadrados

Hipótesis: A mayor cantidad de alquitrán/nicotina que contenga un cigarrillo es más probable que produzca mayores cantidades de Monóxido de Carbono

El modelo será generado a partir de una base de datos con información sobre el contenido de alquitrán, de nicotina, de monóxido de carbono producidos en la combustión y el peso de un cigarrillo para 25 marcas de cigarros diferentes.


GeneralidadesGeneralidadesSe pretende estudiar la relación entre el monóxido de carbono producido en la combustión de un cigarrillo y su contenido en alquitrán y nicotina

Hipótesis:

H1: ↑ alquitrán ↑ proba de q de Monóxido de Carbono controlados por Nicotina y Peso

H2: ↑ Nicotina ↑ proba de q de Monóxido de Carbono controlados por alquitrán y peso

Hipótesis alternativa:

H0: No existe relación entre las variables

Monóxido deMonóxido deCarbonoCarbono

PesoPeso

AlquitránAlquitrán

NicotinaNicotina

Varible Varible IndependienteIndependiente

Varible Varible DependienteDependiente

Modelo


Análisis: ProcedimientoAnálisis: Procedimiento

1. Análisis exploratorio de los datos.

2. Matriz de correlaciones.

3. Modelo inicial y primer análisis de regresión.

4. Eliminación de variables en el modelo inicial.

5. Repetición de los pasos 3 y 4 hasta obtener un modelo definitivo, cuyas

variables tengan todas un valor p menor a 0.05 .

6. Pronósticos efectuados sobre el modelo definitivo.


Análisis: ExploraciónAnálisis: Exploración

Desv StándDesv Stánd

VarianzaVarianza

ModaModa

Desv StandDesv Stand

VarianzaVarianza

ModaModa

Desv. StandDesv. Stand

VarianzaVarianza

ModaModa

Desv StandDesv Stand

VarianzaVarianza

ModaModa

5.675.67

32.132.1

N.D.N.D.

0.350.35

0.130.13

1.021.02

0.090.09

0.010.01

N.D.N.D.

4.744.74

22.4622.46

10.210.2


Análisis: ExploraciónAnálisis: Exploración

0.95**0.95**

C. CorrelaciónC. Correlación

0.92**0.92**


0.97**0.97**


0.46*0.46*


Gráficamente es posible observar que existe una clara relación entre las diversas variables, exceptuando Monóxido y Peso

**Significante al 0.01; * **Significante al 0.01; * Significante al 0.05Significante al 0.05


ModeloModelo

Para nuestro modelo inicial se consideraron todas las variables descritas anteriormente, para el número total de observaciones.

Por lo que el modelo es de la forma:

Y = β 0 + β 1X1 + β 2X2 + β 3X3 + ε^ ^ ^ ^ ^ ^

Para este análisis el procedimiento fue por medio de:

• Modelo de eliminación hacia atrás. • Tres modelos analizados:

• Monoxido = Intercepto + Nicotina + Alquitrán + Peso + Error• Monóxido = Intercepto + Alquitrán + Error• Monóxido = Intercepto + Nicotina + Error


Para desarrollar un análisis de regresión en SPSS…

Análisis→Regresión→Lineal




Como variable dependientes seleccionamos aquella que nos interesa explicar y como variables dependiente aquellas que suponemos que explican su comportamiento…



Análisis de RegresiónAnálisis de RegresiónEn la opción de estadísticas seleccionamos: Estimación de coeficientes de regresión, Ajuste de modelo, diagnóstico de colinearidad y Prueba de Durbin Watson para análisis de residuales.

Estimación de coeficientes de regresión. Muestra los coeficientes de regresión y la prueba de significancia de cada una de las B’s

Ajuste de modelo. Proporciona la R2 del modelo, es decir, la varianza total explicada y el análisis de varianza.

Diagnóstico de colinearidad. Desarrolla una prueba para analizar si una variable independientes está correlacionada linealmente con otra variable independiente

Prueba de Durbin Watson para análisis de residuales. Genera una prueba de correlación serial de los residuales.


Análisis de RegresiónAnálisis de RegresiónUn análisis importante en la regresión cuando es utilizada para estimación es analizar que los valores residuales tengan una distribución normal…

SPSS permite dos análisis gráficos de los residuales..El histograma con curva de distribución y Grágica de probabilidad normal…

En caso que los residuales no tengan una distribución normal, se debe tener cuidado de utilizar el modelo de regresión para predecir nuevos datos…


Model Summaryb

.958a .919 .911 1.41252 2.865Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Durbin-Watson

Predictors: (Constant), Nicotina, Alquitrána.

Dependent Variable: Monoxidob.

ANOVAb

495.255 2 247.628 124.110 .000a

43.895 22 1.995

539.150 24

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Nicotina, Alquitrána.

Dependent Variable: Monoxidob.


Utilizando Nicotina y Alqauitrán el modelo explica el 91.9% del comportamiento de la producción de Monóxido… Entre mayor sea el valor de la R2 mejor es el modelo…

El primer resultado importante de analizar en el modelo es el R2 que determina cuanta varianza es explicada por nuestro modelo y el Análisis ANOVA

El segundo paso es realizar una prueba de hipótesis para comprobar que almenos una de nuestras estimaciones es diferentes de cero

α > p value

Regla de rechazo:


0.01 >0.00

Rechazamos la hipótesis nula y por lo menos un B es diferente de cero…


Coefficientsa

3.090 .844 3.662 .001

.962 .237 1.151 4.067 .001 .046 21.627

-2.646 3.787 -.198 -.699 .492 .046 21.627

(Constant)

Alquitrán

Nicotina

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Tolerance VIF

Collinearity Statistics

Dependent Variable: Monoxidoa.


α > p value

Regla de rechazo:


0.01 >0.00

Rechazamos la hipótesis nula de Bi es diferente de 0

Identificado que por lo menos una B es diferente de cero con el análisis ANOVA, el siguiente paso es conocer que B es diferente de cero, para ello, analizamos….

H0: B0 = 0H0: B1 = 0H0: B2 = 0

Para cada coeficiente analizamos su hipótesis nula..

En este caso, alquitrán muestra no ser significativo para explicar la producción de monóxido..


Collinearity Diagnosticsa

2.891 1.000 .01 .00 .00

.106 5.229 .71 .02 .01

.004 28.710 .28 .98 .99

Dimension1

2

3

Model1

EigenvalueCondition

Index (Constant) Alquitrán Nicotina

Variance Proportions

Dependent Variable: Monoxidoa.

Análisis de RegresiónAnálisis de RegresiónEsto sucede porque puede existir un problema de colinearidad de las variables o por que la variable realmente no ayuda a explicar el comportamiento de nuestra variable dependiente, por ello, es necesario realizar un análisis de colinearidad..

Existen dos formas de realizar una inspección de colinearidad…

Previo al análisis de regresión realizar un análisis de correlación, o

Realizar en el análisis de regresión un diagnóstico de colinearidad…

En los casos en que el valor de la proporción de la varianza sea muy alta, tenemos presencia de colinearidad

En este caso, el 98% de la varianza de alquitrán es explicado por la Nicotina, por lo tanto existe un problema de colinearidad entre estas variables


Análisis de RegresiónAnálisis de RegresiónOtro resultado que muestra SPSS, es el análisis de normalidad de los residuales, el cual utilizamos cuando vamos a utilizar el modelo para generar predicciones…

Entre mayor sea el ajuste a línea recta de los residuales mejor será nuestro modelo para predecir valores

Entre mayor sea el ajuste a una curva normal de los residuales mejor será nuestro modelo para predecir valores


.750.750

.046.046

.046.046

.974.974

.507.507

.001.001

.365.365

Modelo 1Modelo 1

El análisis del primer modelo (Monoxido = Intercepto + Nicotina + Alquitrán + Peso + Error) muestra que Nicotina y Peso pueden no funcionar para nuestro objetivo.

539.15539.15TotalTotal

43.8943.89ResidualResidual

495.25495.25RegresiónRegresión

2.8602.860D-WD-W

.919.919RR22

Resumen del ModeloResumen del Modelo

0.000.00Sig.Sig.

ANOVAANOVA

-.130-.130PesoPeso

-2.632-2.632NicotinaNicotina

0.9630.963AlquitránAlquitrán

3.2023.202ConstanteConstante

ToleranciaToleranciaP-valueP-valueBetaBeta

Resultados

Resumen del Modelo1. El modelo tiene una excelente bondad. La

proporción de variación total en Y explicada por el modelo es del 91.9%

2. No Existe autocorrelación. No debe esperarse que el efecto de un incremento en el alquitran de un cigarrillo incida sobre la producción de otro cigarrillo.

Anova1. Rechazo la hipótesis de

β 0=β 1=β 2=β 3=0; por lo que almenos una β es diferente de cero.

Coeficientes1. Sólo alquitran rechaza la hipótesis de β j=0.2. Esto puede deberse a que alquitrán y nicotina

están linealmente relacionados (multicolinealidad). Una variable con poca tolerancia contribuye con poca información al modelo. Peso se elimina


5.116E-155.116E-15

.000.000

.107.107




2.6742.674D-WD-W

.857.857RR22


0.000.00Sig.Sig.

ANOVAANOVA

12.39512.395NicotinaNicotina


Media de residuosMedia de residuos

P-valueP-valueBetaBeta

Resultados

Resumen del Modelo1. La proporción de variación total en Y explicada

por el modelo es del 85.7%2. No Existe autocorrelación. No debe esperarse

que el efecto de un incremento en la Nicotina de un cigarrillo incida sobre la producción de otro cigarrillo.

Anova1. Rechazo la hipótesis de β 0=β 1=0; por lo

que almenos una β es diferente de cero.Coeficientes1. Sólo Nicotina rechaza la hipótesis de β j=0.2. El valor medio de los residuos es cercano a

cero por lo que tiene buena bondad de ajuste

Modelo 2Modelo 2

Debido a que Nicotina y Alquitrán muestraron una alta correlación es necesario probar las variables por separado (Monoxido = Intercepto + Nicotina + Error)


.000.000

.000.000




2.8932.893D-WD-W

.917.917RR22


0.000.00Sig.Sig.

ANOVAANOVA

0.8010.801AlquitránAlquitrán


P-valueP-valueBetaBeta

Resultados

Resumen del Modelo1. La proporción de variación total en Y explicada

por el modelo es del 91.7%. Mayor que en el modelo 2.

2. No Existe autocorrelación. No debe esperarse que el efecto de un incremento en el alquitran de un cigarrillo incida sobre la producción de otro cigarrillo.

Anova1. Rechazo la hipótesis de β 0=β 1=0; por lo

que almenos una β es diferente de cero.Coeficientes1. Ambas variables rechazan la hipótesis de

β j=0.2. La media de los residuos es menor que con el

modelo 2.

El mejor modelo es el que sólo toma como variable independiente al alquitrán (Monoxido = Intercepto + Alquitrán + Error)

3.730E-153.730E-15Media de residuosMedia de residuos

Modelo 3Modelo 3


Modelo 3 (Continuación)Modelo 3 (Continuación)

Gráfico de probabilidad NormalGráfico de probabilidad Normal valores pronosticados y observadosvalores pronosticados y observados


ModeloModelo

El modelo resultantes se puede escribir de la forma:

Monóxido = 2.743 + (0.801)Alquitrán + ε


ConclusionesConclusiones

• No hubo evidencia suficiente de la existencia de relación entre Monóxido y el peso del cigarrillo.

• Alquitrán o nicotina tienen buenas mediadas de bondad para explicar la producción de Monóxido; sin embargo,

• El modelo con mejor ajuste fue el que consideraba Alquitrán como variable explicativa.

• Sólo 8.3% de la varianza no es explicada por el Alquitrán

• La base de monóxido para cualquier cigarro es de 2.7 miligramos

• Un incremento unitario de alquitrán provoca un incremento de 0.8 miligramos en el Monóxido


Análisis de FactorialAnálisis de Factorial


Análisis de factorialAnálisis de factorialEl análisis factorial permite expresar una serie de variables observadas en función de un número menor de factores analizando para ello la correlación entre las variables.

Trata de identificar las dimensiones subyacente que determinan la relación entre variables, es decir,….

Los factores comunes

Los factores comunes son variables hipotéticas no directamente observadas. Por ejemplo:• Personalidad de marca• Competitividad• Creatividad• Percepción de calidad• Entre otras…


Análisis de factorialAnálisis de factorialAunque no existe una solución única en el análisis factorial para un conjunto de datos, se deben contemplar dos principios básicos para seleccionar una solución..

• Principio de Parsiomonia• Interpretabilidad

Esto es una buena solución es aquella que es:

simple e interpretable

Debemos seleccionar el menor número de factores posibles y éstos deben tener un significado lógico con base en el tema que estamos analizando.


Análisis de factorialAnálisis de factorialOtro uso importante del análisis factorial es la identificación de individuos similares.

A diferencia del análisis de cluster, el cual basa la agrupación de unidades de acuerdo a distancia, el análisis factorial…

identifica sujetos que demuestran un patrón similar en las variables incluidas en el análisis


Análisis de factorial: SupuestosAnálisis de factorial: SupuestosTamaño de muestra:

• Se debe utilizar el análisis cuando se tenga un tamaño de muestra mayor a 50 observaciones.

• Regla general: Mínimo 20 casos por cada variable (nivel óptimo), 10 casos por cada variable (nivel medio)

Supuestos:

• Normalidad en las datos si es el análisis va a ser utilizado para significancia de los factores

• Multicolinearidad: Pues el objetivo del análisis es identificar conjunto de variables interrelacionadas.


Análisis de factorialAnálisis de factorialLa correlación de las variables se analiza por medio de autocorrelaciones parciales o anti-imagen de correlaciones. Cuya diferencia radica en que una prueba muestra los valores negativos de otra

Regla:

Si existen factores reales en la muestra los valores serán pequeños… si no existen factores reales los valores serán altos.


Análisis de factorial: Análisis exploratorioAnálisis de factorial: Análisis exploratorioOtra forma de analizar el supuesto de colinearidad, la existencia de factores, es a través de…

Prueba de Esfericidad de Bartlett

•Es una prueba estadística sobre la presencia de correlación entre variables.

•Muestra la probabilidad de que la matriz de correlación tenga correlaciones significantes con al menos una de las variables


Análisis de factorial: Análisis exploratorioAnálisis de factorial: Análisis exploratorioOtra medida que cuantifica el grado de intercorrelación entre las variables y la factibilidad de del análisis factorial es la..

Prueba de adecuación de la muestra (KMO)

• El rango de la variable va de 0 a 1, 1 cuando cada variable es perfectamente predicha por otra variable y el valor de 0 cuando no existe esta relación.

• Un valor de .8 se califica como meritorio;

• Entre .8 y .7 medio

• Entre .7 y .6 regular

• Menor a .6 no adecuado


Análisis de factorial: Generación de factoresAnálisis de factorial: Generación de factoresUna vez identificadas las variables, el siguiente paso es identificar la estructura adyacente

en los datos. Para ello…

1. Se debe seleccionar el método de extracción

2. Seleccionar el número de factores adecuado


Análisis de factorial: Común vs. componentesAnálisis de factorial: Común vs. componentesEl análisis de componentes se utiliza cuando el objetivo es resumir en mayor medida la información (varianza) en un mínimo de factores para propósito predictivos. Considera la varianza total y deriva los factores que contienen poca proporción de varianza única.

El análisis de factores comunes es usado para identificar los actores o dimensiones que reflejan lo que las variables tienen en común. Considera en el análisis la varianza que existe en común en las variables.


Análisis de factorialAnálisis de factorial

XNxn=

X11

X21

X31

XN1

X11

X21

X31

XN1

X11

X21

X31

XN1

X1n

X2n

X3n

XNn

Sea la matriz de observaciones XNxn en la que se expresan los valores de las variables X1, X2, X3…,Xn, con N número de casos…

El objeto del análisis factorial es expresar cada variable como una combinación lineal de una serie de factores comunes F1, F2,…,Fm (m<n) y un factor único.

Para evitar problemas ocasionados por las dimensiones de las diferentes variables es recomendable tipificarlas previo al análisis.


Análisis de factorial: Matriz de correlaciónAnálisis de factorial: Matriz de correlaciónUna vez tipificadas las variables es posible obtener la matriz de correlaciones. La matriz de correlaciones es una matriz cuadrada y simétrica que contiene los coeficientes de correlación lineal entre las variables observadas.

En la diagonal principal de la matriz Rnxn se encuentran las correlaciones=covarianzas de cada variable consigo misma, es decir, las varianzas de las variables observadas. Por ende, la suma de ellas es la varianza total.


Análisis de factorial: Extracción de factoresAnálisis de factorial: Extracción de factoresExisten diferentes métodos de extracción de factores, pero los más utilizados son el método de componentes principales y el de factorización de ejes principales.

Componentes principales.

Se trata de obtener unas nuevas variables o componentes como combinación lineal de las variables observadas. Este método transforma un conjunto de variables correlacionadas en un conjunto de variables incorrelacionadas

Ejes principales.

Es un caso particular del de Componentes Principales. Trata de maximizar una función con n variables cuando las variables están relacionadas a través de un número arbitrario de ecuaciones auxiliares.


Análisis de factorial: Rotación de factoresAnálisis de factorial: Rotación de factoresCon el fin de lograr una estructura simple que facilite la interpretación de los factores, es necesario realizar la rotación de los factores…

Rotación ortogonal. Tiene por objetivo reducir la Matriz Factorial a una estructura simple.

• Varimax. Maximiza la varianza de los coeficientes, i.e., maximiza la varianza explicada por cada componente.

• Quartimax. Minimiza el número de factores necesarios para explicar una variable

• Equimax. Es una combinación del método Varimax y el método quartimax.


Análisis de factorial: InterpretaciónAnálisis de factorial: InterpretaciónLa extracción ortogonal permite representar a los factores mediante ejes perpendiculares. Por lo que si se asocia a cada variable un vector que parta del origen, es posible conseguir una interprtación gráfica de los factores.

El coseno del ángulo que determinan los vectores asociados a las variables permite establecer una correlación entre factores..

Cosα = r

-1≤ cos α ≤ +1

-1≤ r ≤ +1

Si el ángulo de los dos vectores es 00

Correlación perfecta entre variables (Cos 00= 1)


No hay Correlación entre variables (Cos 900= 0)


Correlación perfecta negativa entre variables (Cos 1800= -1)


Análisis de factorial. EjemploAnálisis de factorial. EjemploLa cultura política de los ciudadanos, por revisión teórica, se sabe que los componentes

de la cultura política son tres:

1. Orientación cognoscitiva (creencias y conocimientos sobre el sistema político)

2. Afectiva (sentimientos sobre el sistema político)

3. Evolutiva (compromisos hacia los valores políticos y juicios de desempeño del sistema político)


2a. En México ¿Quién tiene facultad para aprobar las reformas a la Constitución?

2c. ¿Cuál partido político propone cobrar IVA a medicinas, alimentos y colegiaturas?

2d. En la Cámara de Diputados ¿Qué partido tiene el mayor número de representantes?

2f. ¿Sabe usted cuanto tiempo duran los diputados federales en el cargo?

2g. ¿Cómo se llama el Gobernador de este Estado?

2h. ¿A qué partido pertenece el Gobernador de este Estado?

4a.1 En escala donde 1 es nada y 5 mucho ¿Qué tanto cree usted que los diputados se preocupan por las necesidades de la gente?

4d. ¿Usted confía en el Gobierno Federal?

4e. ¿Usted cree que la corrupción es de los políticos, de los ciudadanos o de ambos?

4h. ¿Considera usted que durante los últimos años ha disminuido las diferencias entre los mexicanos?

4f. ¿Quién cree usted que respeta menos las leyes: los gobernantes, los ciudadanos o ambos?

Análisis de factorial. EjemploAnálisis de factorial. EjemploPara ello se formularon un conjunto de preguntas para medir la cultura política de los ciudadanos..


Análisis de factorial. EjemploAnálisis de factorial. EjemploSe realiza un análisis de fiabilidad para conocer la validez interna de nuestras preguntas….

Reliability Statistics

.783 9

Cronbach'sAlpha N of Items

Item-Total Statistics

28.34 217.358 .454 .765

30.27 210.486 .459 .763

30.75 227.779 .453 .768

29.66 230.643 .403 .773

28.96 210.844 .464 .763

29.46 192.024 .523 .755

29.50 202.371 .511 .756

28.53 187.456 .546 .751

28.69 204.192 .462 .763

¿Qué tanto cree usted que los diputados sepreocupan por las necesidades de la gente?

¿Qué tanto cree usted que los diputados sepreocupan por las necesidades de la gente?

¿Usted cree que la corrupción es de lospolíticos, de los ciudadanos o de ambos?

¿Quién cree usted que respeta menos lasleyes: los gobernantes, los ciudadanos oambos?

¿Considera usted que durante los últimos añosha disminuido las diferencias entre losmexicanos?

¿Cuál partido político propone cobrar IVA amedicinas, alimentos y colegiaturas?

En México ¿Quién tiene facultad para aprobarlas reformas a la Constitución?

En la Cámara de Diputados ¿Qué partido tieneel mayor número de representantes?

¿Sabe usted cuanto tiempo duran los diputadosfederales en el cargo?

Scale Mean ifItem Deleted

ScaleVariance if

Item Deleted

CorrectedItem-TotalCorrelation

Cronbach'sAlpha if Item

Deleted


Análisis de factorial. EjemploAnálisis de factorial. EjemploUna vez observado la validez interna de nuestro conjunto de preguntas, el siguiente paso es realizar la reducción de variables a variables artificiales, para ello…

Análisis→Reducción de datos→Factor


Incluimos las variables a analizar


Análisis de factorial. EjemploAnálisis de factorial. EjemploUna vez observado la validez interna de nuestro conjunto de preguntas, el siguiente paso es realizar la reducción de variables a variables artificiales, para ello…

En el cuadro de estadísticas descriptivas seleccionamos Solución inicial (muestra el porcentaje de varianza extraída de cada variable

En el cuadro de extracción seleccionamos el método a utilizar, en este caso “Componentes principales”


Análisis de factorial. EjemploAnálisis de factorial. Ejemplo

Debemos seleccionar un método de rotación para poder interpretar los resultados..

Si deseamos utilizar los factores para clasificar a los casos de acuerdo a las variables artificiales, seleccionamos “salvar como variables”


Total Variance Explained

3.366 37.396 37.396 3.366 37.396 37.396 2.416 26.845 26.845

1.241 13.789 51.185 1.241 13.789 51.185 2.191 24.340 51.185

.857 9.526 60.711

.706 7.845 68.556

.687 7.637 76.193

.624 6.933 83.126

.595 6.616 89.741

.513 5.696 95.438

.411 4.562 100.000

Component1

2

3

4

5

6

7

8

9

Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %

Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings

Extraction Method: Principal Component Analysis.

Uno de los primeros resultados que debemos observar es la varianza total explicada…

Muestra el total de la varianza que está explicada por medio de los componentes o variables artificiales generadas


La varianza explicada de nuestros doscomponentes es de 51.185%


Rotated Component Matrixa

.677 .112

.711 .166

.766 .129

.670 .197

.376 .468

.329 .543

.090 .825

.022 .829

.399 .462

¿Sabe usted cuanto tiempo duran los diputados federalesen el cargo?

¿Cuál partido político propone cobrar IVA a medicinas,alimentos y colegiaturas?

En la Cámara de Diputados ¿Qué partido tiene el mayornúmero de representantes?

En México ¿Quién tiene facultad para aprobar las reformasa la Constitución?

¿Qué tanto cree usted que los diputados se preocupan porlas necesidades de la gente?

¿Qué tanto cree usted que los diputados se preocupan porlas necesidades de la gente?

¿Usted cree que la corrupción es de los políticos, de losciudadanos o de ambos?

¿Quién cree usted que respeta menos las leyes: losgobernantes, los ciudadanos o ambos?

¿Considera usted que durante los últimos años hadisminuido las diferencias entre los mexicanos?

1 2

Component

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Rotation converged in 3 iterations.a.

Para nombrar nuestras variables artificiales, debemos analizar la matriz de componentes rotados, de esta forma, el concepto explicado por la variable artificial se establecerá de acuerdo a las variables de las cuales extraiga la mayor varianza, esto es…


Para el componente 1, estas son las variables a las que “extrae” mayor varianza

Para el componente 2, estas son las variables a las que “extrae” mayor varianza


Análisis de factorial. EjemploAnálisis de factorial. EjemploDe esta forma, nosotros podemos nombrar a nuestras variables artificiales, por lo que…

Componente 1: Conocimiento político.

Componente 2: Creencia sobre el sistema político


a) No hay correlación entre P41 y P2f, es decir, el hecho que no conozcan el periodo de duración de los diputados no implica que tengan una apreciación positiva sobre el respeto a la ley

b) Existe correlación entre P2d y P2f, es decir, el hecho que no conozcan el periodo de duración de los diputados está relacionado también con el desconocimiento de quien tiene mayoria en la cámara

a)a)

b)b)