Ejercicios de repaso Tterreno.sav ¿los cohes de 4 cilindros consumen en promedio lo mismo que los...
-
Upload
delfina-concepcion -
Category
Documents
-
view
215 -
download
0
Transcript of Ejercicios de repaso Tterreno.sav ¿los cohes de 4 cilindros consumen en promedio lo mismo que los...
Ejercicios de repaso
Tterreno.sav ¿los cohes de 4 cilindros consumen en
promedio lo mismo que los de 6 a 90, 120 o urbano? Parametrico y no paramétrico
Tablas cruzadas c1 directivos y e6 estudios procedencia
Archivo: trabajo.sav ¿relación entre sexo (c1) e idelología (c9)? Muestrea los residentes de Andalucia y
Aragon (c15) y elige el 20% de cada uno ellos
EJERCICIOS REPASO FACTORIAL Y CLUSTER ARCHIVO DE CC.AA.sav, realiza el análsis
cluster en 2 etapas, jerárquico y no jerárquico. Graba las variables para utilizarlas en otros análisis, ¿existen diferencias entre criterio jerárquico y no-jerárquico??
Análisis factorial con trabajo.sav (b13 a b21): ¿mejora el análisis si elimino alguna variable siguiendo la comunalidad?
Análisis factorial con facto1.
Ejercicios de repaso
Con el fichero de xls de trabajo de IMD realizar descriptivos y factorial y cluster.
variables capital humano, ……..
REGRESION LINEAL
TRATAMOS DE EXPLICAR UNA VARIABLE DEPENDIENTE (EXPLICADA) MÉTRICA A TRAVÉS DE VARIABLES INDEPENDIENTES (EXPLICATIVAS) MÉTRICAS.
UNA INDEPENDIENTE, REGRESION SIMPLE
DOS O MÁS INDEPENDIENTES, REGRESIÓN MÚLTIPLE
REGRESION LINEAL
La F (Anova) nos da información sobre si el modelo es globalmente significativo, válido, si bien eso no implica que todas las variables sirvan
Por lo tanto, hay que ver como contribuye cada variable independiente a la explicación, en signo (sentido), valor (intensidad) y validez (significatividad)
La R2 (R cuadrado corregida) es el grado de la bondad del ajuste, que significa la calidad del ajuste, o el % en el que la variable dependiente es explicada por las independientes Ejemplo: R2 = 0,8, significa que el 80% de la variable está
explicada por las variables independientes.
REGRESIÓN LINEAL
Una vez hemos obtenido las β o estimadores (predictores) podremos predecir la variable dependiente para el sujeto n+1
Por lo tanto es una técnica de ajuste y predicción.
Si hay varias variables la explicación se hará en unidades estandarizadas, en β estandarizadas
Si hay variables no métricas entonces realizaremos la trampa de las ficticias, interpretando sobe la omitida
EJERCICIOS INTERPRETACIÓN DEL EJERCICIO EN
CLASE (EXPLICACIÓN SUELDO, PP.315) ¿Cómo realizaríamos la predicción si un nuevo
individuo tiene 35 años de edad, lleva 3 en la empresa, es mujer, tiene estudios universitarios (1), 2 hijos y categoría media laboral? ESPECIFICA EL MODELO E INTERPRETA
REGRESION LINEAL
FICHERO TTERRENO.SAV ¿PODEMOS EXPLICAR EL PRECIO (PVP) A
TRAVÉS DE EL PESO Y LA POTENCIA? ¿QUÉ INTERPRETACIÓN TENDRÍA?
FICHERO TTERRENO.SAV ¿PODEMOS EXPLICAR EL CONSUMO A
120 KM/H A TRAVÉS DE LA CILINDRADA, CC? ¿QUÉ INTERPRETACIÓN TENDRÍA?
EJERCICIOS
FICHERO TRABAJO.SAV SE PUEDE EXPLICAR LA SATISFACCIÓN
EN EL TRABAJO (b36) con las VARIABLES DESDE b22 hasta b32?
¿cuáles son las variables que realmente contribuyen al model y con las que podríamos resumir toda la información para explicar la SATISFACCIÓN (b36)?
Regresión…
Podemos sufrir el problema de COLINEALIDAD o Correlación entre las variables INDEPENDIENTES, en este caso, se pueden enmascarar variables buenas, con pobres betas por culpa de la influencia de otras variables……
El análisis discriminante y la regresión logística son técnicas SIMILARES A LA REGRESIÓN; son estadísticas apropiadas cuando la variable dependiente es categórica (NOMINAL) y las variables independientes son métricas.
ANÁLISIS DISCRIMINANTE y REGRESIÓN LOGÍSTICA
A MODO DE REPASO, TANTO FACTORIAL COMO CLUSTER Y DISCRIMINANTE, TODAS LAS
MULTIVARIANTES FUNCIONAN MEJOR CON DATOS MÉTRICOS
El A.D. tiene la capacidad de tratar tanto dos grupos como grupos múltiples (tres o más). Sin embargo, no tiene la misma interpretación directa que la regresión
La regresión logística o análisis logit, está restringida en su forma básica a dos grupos, a una respuesta dicotómica, si bien es más estable y presenta mejores propiedades que el AD. • No se basa en una distribución paramétrica• Tiene interpretación directa como la regresión
ANÁLISIS DISCRIMINANTE y REGRESIÓN LOGÍSTICA
AD y Regresión logística AD lo utilizaremos cuando su variable dependiente o
explicada es categórica, pudiendo representar más de dos respuestas o categorías EJEMPLO: SUBESPECIE
A B C D
EJEMPLO: TIPO DE EMPRESAS EXCELENTE (GACELA) SUPERVIVIENTE RETRASADA (TORTUGA)
EJEMPLO: CLASIFICACIÓN IDEOLÓGICA DERECHA CENTRO IZQUIERDA
Regresión logística
El LOGIT, sólo admite una respuesta (variable explicada o dependiente) DICOTÓMICA (2 CATEGORÍAS)
VOTACIÓN ELECCIONES PP PSOE
EJEMPLO: DEPARTAMENTO DE MK SI NO
REGRESION LOGISTICA Son técnicas de PREDICCIÓN
TENEMOS LOS GRUPOS ESTABLECIDOS A PRIORI
POR EJEMPLO, DESPUÉS DE HABER REALIZADO UN ANÁLISIS CLUSTER Y OBTENIDO DIFERENTES SEGMENTOS DE MERCADO O DIFERENTES GRUPOS (2)
QUEREMOS SABER QUE VARIABLES DISCRIMINAN A LAS OBSERVACIONES A QUE PERTENEZCAN A UNO U OTRO GRUPO O CATEGORÍA. ES DECIR, QUEREMOS SABER QUÉ VARIABLES HACEN QUE LOS INDIVIDUOS PERTENEZCAN A UNO U OTRO GRUPO
Regresión logística
LO QUE NOS INTERESA ES DETERMINAR QUE VARIABLES INDEPENDIENTES EXPLICAN LA PERTENENCIA A UN DETERMINADO GRUPO
SI LO AVERIGUAMOS, PODREMOS PREDECIR YA QUE PARA NUEVAS EMPRESAS O PERSONAS EN LA MUESTRA PODREMOS PRONOSTICAR A QUÉ GRUPO PERTENECERÍA
UTILIDADES DE LAS HERRAMIENTAS UTILIDADES
EMPRESAS: EL QUE LA EMPRESA SOBREVIVA (1) O QUIEBRE (0)
QUE LA EMPRESA EXPORTE O NO QUE LOS CONSUMIDORES COMPREN (1) O NO(2) MÉDICAS
POR EJEMPLO, SI DETERMINAMOS LAS VARIABLES QUE EXPLICAN EL SUFRIR (1) O NO SUFRIR (0) UN ATAQUE AL CORAZÓN PODREMOS PRONOSTICA LA POSIBILIDAD O PROBABILIDAD DE QUE LAS PERSONAS EN FUNCIÓN DE SU CONDUCTA SUFRAN O NO EL ATAQUE
Regresión logística Ofrece una medida de ajuste o bondad
expresada como -2 log. Verosimilitud (-2LL) cuanto MÁS BAJA
mejor, cero sería lo perfecto. Además, se apoya en una Chi-Cuadrado, que nos corrobora la VALORACIÓN GLOBAL DEL MODELO, lo que tampoco implica (como en la regresión) que todas las variables sean buenas.
El grupo de menos individuos, normalmente el que toma valor 0, debe tener más individuos que el número de variables y, además, como mínimo el 10% de la muestra total.
Regresión logística
Se ofrece la Matriz de clasificación o confusiónMatriz de clasificación o confusión, donde se recogen los valores observados y los predicted para evaluar, con las variables que hemos utilizado, si el modelo es capaz o no de predecir la pertenencia de un individuo a uno u otro grupo
Posteriormente, debemos evaluar la contribución de cada variable (Significatividad) y la interpretación de las mismas como la influencia significativa (+) positiva o negativa (-) en la probabilidad de pertenecer al grupo 1. No obstante la intensidad de la influencia NO SE INTERPRETA COMO EN LA REGRESIÓN, sino en el cambio exponenecial que debe estar alejado de 1 por arriba (+) o por abajo (-)
Regresión logística: ejercicios
Ejercicio de predicción de quiebra empresarial (AMD-Levy)
¿Cómo funciona el modelo? ¿Qué variable es la más importante?
ANÁLISIS DISCRIMINATE
El análisis discriminante permite determinar cuáles son las variables (de entre la serie de variables seleccionadas previamente por el investigador), que mejor explican la pertenencia de un individuo a un grupo determinado (Pedret et al., 2000:228). En otras palabras, tratamos de determinar si un conjunto de variables pueden explicar la conjunto de variables pueden explicar la pertenencia a un grupo previamente pertenencia a un grupo previamente determinado por el investigadordeterminado por el investigador
ANÁLISIS DISCRIMINANTE
La ecuación lineal discriminante, similar a una regresión múltiple, es la siguiente:
D = B0 + B1 X1 + B2 X2 + ……..+ Bp Xp
Donde Xi son las variables independientes, B0 es la constante y Bi son los coeficientes estimados a partir de los datos originales de modo que los valores de la función difieran el máximo posible entre los diferentes grupos.
ANÁLISIS DISCRIMINANTE
Muestra total: relación óptima de 20 a 1. Mínima de 5 a 1.
El grupo de menos individuos tiene que ser como mínimo mayor que el número de variables
La regla general es que cada grupo tenga al menos 20 individuos.
ESTIMARÁ TANTAS FUNCIONES DISCRIMINANTES COMO GRUPOS MENOS 1 SI POR EJEMPLO HAY 3 GRUPOS CON UNA SOLA
FUNCIÓN PUEDE DISCRIMINAR ENTRE EL 3 Y 2 PERO NO 1 Y 2
Análisis discriminante
LAS PONDERACIONES o CARGAS FACTORIALES ESTANDARIZADAS, SEÑALAN EL SIGNO Y CUANTÍA QUE CADA VARIABLE TIENE DE DISCRIMINACIÓN.
Es la contribución de la variable a la función discriminante
Funciona como las β de la regresión, si bien el signo no importa
La Matriz de estructura nos ordenará la importancia en términos de contribución de cada variable
El stepwisestepwise es muy válido para quedarnos las que realmente importan
Análisis discriminante
LA CAPACIDAD DE PREDICCIÓN O POTENCIA DE CLASIFICACIÓN LA OBSERVAREMOS EN LA “MATRIZ DE MATRIZ DE CONFUSIÓNCONFUSIÓN”, QUE CLASIFICA LOS GRUPOS OBSERVADOS (A PRIORI) Y LOS ESTIMADOS CON LAS VARIABLES INDEPENDIENTES
Pruebas de igualdad de las medias de los grupos
,136 97,534 3 46 ,000
,126 106,818 3 46 ,000
,553 12,381 3 46 ,000
IMAGEN
VARIEDAD
instituto
Lambdade Wilks F gl1 gl2 Sig.
LA IGUALDAD DE MEDIAS (COMPARACIÓN DE MEDIAS) UTILIZA UNA F, COMO EL ANOVA UN FACTOR Y ME
DICE QUE TODAS LAS VARIABLES FUNCIONAN COMO DISCRIMINANTES
Resultados de la prueba
18,317
,882
18
4003,896
,602
M de Box
Aprox.
gl1
gl2
Sig.
F
Contrasta la hipótesis nula de que las matricesde covarianza poblacionales son iguales.
EL M-BOX ME INDICA SI REALMENTE HAY DIFERENCIAS ENTRE LOS GRUPOS (MATRICES DE COVARIANZAS)
ES COMO EL KMO Y BARLETT DEL FACTORIAL, ME INDICA SI LA PRUEBA PUEDE FUNCIONAR, SIN EMBARGO, NO ES TAN ESTRICTO COMO EN EL
CASO FACTORIAL
Autovalores
12,563a 93,3 93,3 ,962
,829a 6,2 99,4 ,673
,077a ,6 100,0 ,267
Función1
2
3
Autovalor % de varianza % acumuladoCorrelacióncanónica
Se han empleado las 3 primeras funciones discriminantescanónicas en el análisis.
a.
Lambda de Wilks
,037 149,493 9 ,000
,508 30,858 4 ,000
,928 3,377 1 ,066
Contraste delas funciones1 a la 3
2 a la 3
3
Lambdade Wilks Chi-cuadrado gl Sig.
EN ESTE CASO, 3 FUNCIONES DISCRIMINANTES PORQUE HEMOS TRABAJADO CON 4 GRUPOS; LAS TRES SON
SIGNIFICATIVAS
Resultados de la clasificacióna
17 0 0 0 17
0 13 0 0 13
0 0 12 0 12
0 0 0 8 8
100,0 ,0 ,0 ,0 100,0
,0 100,0 ,0 ,0 100,0
,0 ,0 100,0 ,0 100,0
,0 ,0 ,0 100,0 100,0
Número inicial de casos1
2
3
4
1
2
3
4
Recuento
%
Original1 2 3 4
Grupo de pertenencia pronosticado
Total
Clasificados correctamente el 100,0% de los casos agrupados originales.a.
LA MATRIZ DE CONFUSIÓN NOS INDICA QUE CAPACIDAD DE CLASIFICACIÓN O PREDICCIÓN TIENE EL MÉTODO, COMPARANDO
LOS CASOS PRONOSTICADOS Y COMPARÁNDOLO CON LOS GRUPOS A PRIORI.
EJERCICIOS DISCRIMINANTE EJERCICIO DISCRIMINANTE ARCHIVO: 13.1
ESTUDIOS (EGB, BUP FP) POR LA EDAD HABITAT Nº LIBROS LEIDOS HORAS TV NOTA MEDIA NUMERO HERMANOS
MUNDO.SAV CLIMA (TROPICAL, MEDITERRANEO O TEMPLADO)
CON INGESTA CALORÍAS PIB-CAP % HABITANTES CIUDADES POBLAC
EJERCICIOS DISCRIMINANTE
TRABAJO.SAV
B1 (DEPENDIENTE, DICOTOMICA)
C1 (CATEGORIACA), C2, C6
TODO ELLO EN INDIVIDUOS DE MENOS DE 60 AÑOS
ARCHIVO: TERRENO.SAV CILINDRO (4,5,6,7,8)
TODAS LAS VARIABLES MENOS MARCA
EJERCICIOS DISCRIMINANTE
11.1 (CANCER) NODOS (DEPENDIENTE, DICOTOMICA)
EDAD ACIDO GRADO ETAPA RADIOGRAFÍA
REVALORIZACIÓN PV ARCHIVO: CRECIMIENTO
GENERO (NIÑO/NIÑA) DISTANCIA EDAD
ANÁLISIS DISCRIMINANTE
REGRESIÓN LOGÍSTICA
EJERCICIOS DE PRÁCTICA CLUSTER
Archivo: mundo.sav Variables:
Alfabetización (alfabet) Incremento población (inc_pob) Esperanza vida femenina (espvidaf) Mortalidad infantil (mortinf) Numero promedio hijos mujer (fertilid) Tasa natalidad (tas_nat) Log_pib Urbana Tasa mortalidad (tasa_mor)
Ejercicios práctica: FACTORIAL
ARCHIVO: FACTO2.SAV PRINCIPLES EMPRESAS ESPAÑOLAS
CASH/VENTAS; INMOVILIZADO/ACTIVO; VENTAS /PALANTILLA; VENTAS/ACTIVO; BEFOS /VENTAS; VENTAS / INMOVILIZADO
Ejercicios de repaso
Fichereo: comparación medias y tablas.xls Averigua: si existe relación de contingencia entre el
tamaño y el pertenencer a un instituto Existen diferencias entre la imagen y el tamaño, y
entre los productos y el tamaño Existen diferencias entre el tamaño y las
rentabilidades 94?? Antes debes analizar los datos
Fichero: comparación medias.xls Realizar una prueba para averiguar si el tamaño nos
lleva o no a una diferente variedad de productos Antes, realiza un estudio de los datos
Tablas de contingencia: dicotomías múltiples; EJERCICIO Fichero: directivos; variable C1 (c1.1 a c1.11) C1. Podría indicar qué incentivos salariales tiene en su
empresa (elija los que crea convenientes) Por resultado empresa por resultado negocio Por objetivos individuales Por objetivos equipo Por evaluación cumplimiento Colectivos Comisiones Participación en beneficios otros
MUESTRAS Y MUESTREO
CONCEPTOS BÁSICOS
-MUESTRA: conjunto reducido de individuos o elementos de una población, escogidos para obtener información sobre los mismos y generalizarla al resto de la población
-POBLACIÓN: todos y cada uno de los individuos o elementos de los cuales se quiere tener una información
-ERROR SISTEMÁTICO: o de muestreo, es el asociado a la difernecia entre un estimador concreto de una muestra y el parámetro calculado en la población
PLANIFICACIÓN DE LA OBTENCIÓN DE LA MUESTRA
Fuente: Investigación de Mercados
Miquel et al. (1997:140) capítulo 7
Tipos de muestreo Aleatorio Estratificado (afijaciones)
-Afijación simple: consiste en el reparto a partes iguales de la muestra entre los diversos estratos conocidos
-Afijación proporcional: consiste en el reparto proporcional de la muestra entre los distintos estratos, en base al número de efectivos de cada uno de los mismos (así se mantiene constante el coeficiente de elevación)
Por conglomerados otros
CÁLCULO DEL TAMAÑO MUESTRAL
TABLA DE MUESTRAS EN FUNCIÓN DEL ERROR Y LA POBLACIÓN
Fuente: Miquel et al. (1997:151)
CÁLCULO DE LA MUESTRA
Fuente: Miquel et al. (1997:150)
EJERCICIOS
N= 25.534, ERROR DEL 5%, Z = 2, VARIANZA = 3.56 PRETEST
LO ANTERIOR CON POBLACIÓN INFINITA N = 54.000, ERROR DEL 7%, 95,5%
CONFIANZA, P=Q LO ANTERIOR CON POBLACIÓN INFINITA
EJERCICIOS
FICHERO: TRABAJO SELECCIONAR FORMA ALEATORIA 200
CASOS POR CONGLOMERADOS: POR SEXOS PROCEDE: DATOS /SELECCIONAR
CASOS SOBRE EL SECTOR DEL AZULEJO
SUPONIENDO VARIABLE ES NOMINAL
BASE DE DATOS SABI