Estadística IV (2014)

download Estadística IV (2014)

of 26

Transcript of Estadística IV (2014)

ESTADSTICA IVGiorgio BoccardoUNIDAD I: INTRODUCCIN AL ANLISIS MULTIVARIABLE Revisin de 5 tcnicas multivariables, trabajo transversal con la idea de modelo Metodologa: Clases expositivas/tericas, y Talleres prcticos en Ctedra y Ayudanta. 2 Evaluaciones (25% + 25%) y 1 Trabajo (50%)UNIDAD 11. INTRODUCCIN AL ANLISIS MULTIVARIANTE1.1. El modelo estndar de las Ciencias Sociales y sus limitacionesTeora, representacin y realidad: ltimamente uno ocupa la estadstica inferencial o no puede hacer sociologa, invalidando en algn momento la estadstica univariada, o en diametral confrontacin con las corrientes hermenuticas y/o historicistas, que llegan al extremo. Se sealarn las siguientes limitaciones al Modelo Estndar de las Ciencias SocialesPrincipio de representacinSe puede establecer una representacin emprica de la teora en tanto que realidad, descansando en el corpus del conocimiento. Por tanto, en el caso de la estadstica inferencial se puede inferir de una muestra un parmetro extensible a la poblacin. (Modelo matemtico y esos nmeros vinculados con la realidad estudiada pueden representarla)[footnoteRef:1] [1: Ajuste del modelo: cunto error puedo tolerar (en relacin al tamao de la muestra) sin llegar a establecer un tamao de la muestra espurio.]

El empirismo detrs de las Ciencias SocialesLa disciplina sociolgica supone producir empiria, de lo contrario no nos encontramos en la disciplina. Nadie investigara si se supone que lo construido investigacin mediante no tiene nada que ver con la realidad. La objetividadPor tanto, cuando uno construye modelos, la objetividad se juega a nivel ontolgico y epistemolgico (los supuestos propios del modelo) en la medida que este opera en un modelo matemtico con pretensiones de razonabilidad, jugndose en el equilibrio propio del modelo.El problema de la causalidadSe supone que para hacer inteligible la realidad, se buscan causas de sta en las relaciones entre variables que explicarn ciertos comportamientos, conductas, problemas a nivel macro, suponiendo estas causas. Uno puede nutrirse del anlisis weberiano en jugar con la tensin de relativizar las causas (multicausalidad); jugndose a priori ciertas causas. El problema con el que uno debe trabajar es que a veces uno tiene supuestos terico conceptuales imposibles de demostrar, o viceversa, pero el problema en este caso, es del marco conceptual o del marco matemtico? (Trabajar entre la intuicin sociolgica y las salidas de SPSS, cuando hoy predomina por inercia la razn estadstica)Lo social se valida con lo socialLa explicacin de hechos sociales con hechos sociales se ha convertido en una suerte de campo de accin, pero por otro lado vuelve a la CCSS irreductible fuera de su propio campo. Se puede construir un modelo construido de forma matemtica, pero la interpretacin no es realizada desde la propia matemtica, si no que se vuelve al hecho social, con una tendencia a la crtica a los indicadores construidos o a las salidas arrojadas por el modelo.Se haba llegado de la mediacin del conocimiento entre teora y realidad llegando al dato. Pues bien, el anlisis multivariado termina por hacer una proposicin del salto del dato al hecho social.Suposicin de un modelo normativoLos modelos sociales suponen relaciones normativas en tanto que interacciones sociales vale decir, una forma de entender estas interacciones, mientras que los modelos no suponen normatividad, sino que hacen una relacin estadstica, por lo que se hace necesario incorporar este elemento como un supuesto msSuposicin de neutralidad valorativaSe supone que hay una distancia significativa entre el sujeto investigador y el objeto investigado, sin considerar la discusin en que puede enfrascarse la discusin dada en torno al carcter objetivo de la cientificidad, como por ejemplo se aprecia en Frankfurt con la tensin de la produccin de conocimiento y la transformacin de la realidad, de la que el modelo estndar no se hace cargo, pues el descubrimiento de las estructuras de poder subyacentes a la construccin de conocimiento no es tema.En segundo lugar, proveniente del constructivismo radical, que al suponer que la realidad se construye socialmente no es pensable un objetivismo atribuible a las CCSS. Por lo tanto, las posibilidades de que un modelo observe las formas de produccin del modelo son ms bien una quimera, dado el mismo proceso de produccin de conocimiento que se caracteriza.Una ltima aproximacin sera la hermenutica (interpretar el sentido de la accin social, discusiones presentes en Weber, la fenomenologa, Gadamer, etc.) en la observacin de la relacin sujeto objeto mediada por el discurso, haciendo imposible una interpretacin de esta realidad en particular, desde el modelo estndar de las Ciencias Sociales.Definicin de entrada al problema de entender los elementos de la estadstica multivariableEl gran problema, en definitiva, se traslada hacia la capacidad y el tino a la hora de ser eclctico con las tcnicas de investigacin: resolver en un 100% el problema de volver al hecho social sin la declaracin de una inconmesurabilidad entre ontologas y metodologas. 1.2. Algunas definiciones del anlisis multivarianteEl hecho de que uno est trabajando en ms de 2 variables no asegura que se est trabajando con anlisis multivariante. Las variables han de ser recogidas aleatoriamente, y las relaciones establecidas entre las variables no pueden ser explicables a raz de las relaciones particulares entre una y otra. Por ejemplo, de estar trabajando con un indicador complejo como el ndice de Desarrollo Humano (Salud, Educacin, PIB, etc.) comparando pases, el punto es que al explicar una diferencia entre estos pases, estas no podran darse en base a las diferencias particulares entre cada pas.Si yo no logro construir un modelo que en su conjunto en que las variables por separado no expliquen tan bien el modelo como lo hacen las variables en su conjunto, teniendo en cuenta que el valor terico est compuesto de los diferentes productos entre peso y variable.Se ofrece entonces una comparacin de los valores observados para con los valores tericos. El problema no es el clculo del valor observado, sino que se ajuste el modelo para que quede dentro de los mrgenes, o sea, con cunto error se va a trabajar. Pudiendo calibrar los distintos errores y las unidades de medida se dirige a ajustar el modelo. Una vez funcionando el modelo, ya corregido, se termina por interpretarlo.En tanto que unidades definir qu tipo de variables son (mtricas escalares y de razn y no mtricas nominales y ordinales). Uno de los cortes gruesos para definir el modelo es definir las variables, y qu dependencia (dependiente e independiente) establecen entre s, llevando a la distincin entre modelos dependientes e interdependientes. En sntesis, segn la dependencia/independencia, y el carcter mtrico/no mtrico de las variables, se definir el tipo de modelo a emplear.Se trabaja tambin con 2 nociones de error. Una de ellas es un error no estadstico, que no depende del constructo terico que es el modelo. En esta categora, el error de medida significa un dato que viene con problemas, solucionado en el proceso de recoleccin del dato que nos permite ajustar el error de medida, trabajando por ejemplo con los llamados datos aberrantes o con los valores missing. Este procedimiento se conoce como validacin de la base de datos. Es un proceso lento y requiere de una persona con habilidad para mirar nmeros, requiriendo criterios sociolgicos y matemticos.Se busca el rechazo de la hiptesis nula, o sea, validar la hiptesis planteada desde el problema.REALIDAD

La hiptesis nula es ciertaLa hiptesis nula es falsa

DECISIN ESTADSTICASe acepta la hiptesis nula1-1-

No se acepta la hiptesis nula

Llega un instante, a la hora de evaluar los resultados, de aceptar o rechazar una hiptesis cierta o falsa. Para que sea coherente, hay que atravesar el problema de la significacin estadstica, que nos explica qu tan estadsticamente significativa es la diferencia entre 2 grupos. Han de observarse 2 errores, el error tipo I (: siendo cierta la hiptesis nula, se rechaza por insuficiencia de la significacin estadstica ante la cantidad de probabilidades de ocurrir) y el error tipo II (La potencia (1-) es la probabilidad de aceptar una hiptesis nula cuando esta era falsaPara calcular la potencia estadstica del modelo (1- ), se necesita de el tamao de la muestra (habiendo ya asegurado el problema de la representatividad). En cuanto al tamao de la muestra y en condicin de la cantidad de interacciones, muestras pequeas pueden producir un problema de insensibilidad de la muestra habiendo interacciones entre variables, el tamao de la muestra no las encuentra. Al contrario, se da el caso de que hay interacciones espurias, detectadas donde no las haba solo por el tamao de la muestra. A su vez, hay un discernimiento matemtico segn la medida que tiende a 0, sabiendo que en tal caso 1- tiende a 1. Y finalmente, el tamao del efecto se mide segn la diferencia de las medias (si yo quiero saber cul es la potencia debo saber cul es la diferencia estadstica, obteniendo segn la prueba aplicada un valor para terminar de calcular la potencia)Como la potencia depende de una variable fija y de otras 2 variables, se hipotetizan distintos escenarios, pudiendo elaborar una tabla que caracterice los distintos tipos de potencia, buscando la potencia ms cercana a 0,8, con fin de ajustar el tamao de la muestra de forma que la significacin estadstica se vea ilustrada de la mejor forma.BIBLIOGRAFA: Hair, J.F. et al.; Anlisis Multivariable. Madrid, 2001 Unidades 1 y 2

Anlisis previo de los datosDe manera previa a cualquier anlisis hay que validar la base de datos, para asegurar que nuestros clculos sean estadsticamente significativos. Uno de los problemas que hay que resolver es el de los datos ausentes y otro es el de los casos aberrantes1) Los datos ausentesEncontrar datos perdidos (casillas vacas) en una base de datos, es muy comn; pueden ir desde que un individuo no haya respondido la entrevista completa, o variables que presenten casos perdidos; en ese sentido hay dos posibilidades de entrada para esta problemtica: el individuo, o la variable.El primer problema que se debe resolver es el conocimiento de las razones que explican la ausencia de datos: mala digitacin, no respuesta por omisin de informacin. Cuando los casos perdidos estn relacionados con el tema en estudio hay que asumir el trabajo con casos perdidos, si s que hay un sector especfico de la poblacin que no responde, puedo reemplazar. Una vez aplicado el instrumento no hay marcha atrs, y la nica solucin es conocer el motivo de que haya valores inexistentes.Cuando es por la naturaleza de la investigacin (tipo de sujetos, el tema trabajado) que hay casos perdido, es preciso saber si los casos perdidos son aleatorios o no. En la CASEN por ejemplo, si hay veces que la persona que deba responder no se encontraba (el jefe de hogar) puede que haya sido una situacin aleatoria; si no responde un segmento de la poblacin, los estratos altos, es un error no aleatorio. Lo ideales que sea aleatorio, pues es ms fcil solucionarlo.Cmo determino si la no respuesta es o no aleatoria? Se trata de observar si hay correlacin entre los casos contestados y los no contestados.Supongamos dos variables: una variables x que est respondida en totalidad, y una variable y que tiene datos perdidos. El supuesto es el siguiente: tengo dos conjuntos xy; pares donde ambas respuestas estn, y pares xy con y no respondido. Hago una diferencia de medias para x (t de student[footnoteRef:2]) y observo si hay una diferencia significativa entre las medias de x; si no hay diferencias estadsticamente significativas, implica que la prdida de datos en y es aleatoria (implica que el caso en y se haya perdido no hay un cambio significativo en la variable x); si hay diferencias estadsticamente significativas, implica que la prdida de datos en y no es aleatoria. En el primer caso la aleatoriedad no resuelve nada, simplemente habilita para imputar datos (reemplazar) [2: Cuando son dos grupos trabajo con t de student, si son ms de dos grupos es mejor anova.]

Cmo se hace este anlisis para ms de dos variables?Una forma es establecer una matriz de correlaciones para todas las variables. Se elabora una dicotomizacin para analizar si los perdidos afectan la distribucin de los normales. Para cada variable, los valores que tienen valor normal (no perdido) se tratan como valor 1, y los valores perdidos (no respuesta) se tratan como valor 0. Esto me indicar si los valores perdidos correlacionan con los perdidos: si hay correlacin estadsticamente significativa, indica que los casos perdidos influyen en los resultados del modelo, no es aleatorio; si no hay correlacin estadsticamente significativa, indica que los casos perdidos no influyen en los resultados del modelo, hay aleatoriedad.Puede ocurrir que el problema se concentre en algunas variables o en todas. Si se da que haya algunas variables que sean aleatorias se puede buscar si en cada variable se distribuyen de manera aleatoria los casos perdidos (MAR modelo de correlacin dicotmica), lo que me permite identificar donde hay un problema; hay otra forma de evaluar esto pero al modelo como conjunto, si en el modelo como un todo se distribuyen los errores de manera aleatoria (modelo MCAR)[footnoteRef:3]. Si yo compruebo la aleatoriedad entre cada una de las variables, no me asegura la caracterstica del modelo en general; la validacin como conjunto s lo hace. [3: Se recomienda revisar por cada variable, pues permite saber donde hay errores, cules son las correlaciones ms fuertes, las ms dbiles etc. En el anlisis multivariable importa mucho saber cmo se comportan los errores.]

Si de mi evaluacin obtengo la certeza de que los errores se distribuyen de manera aleatoria, estoy habilitado para imputar casos. Los programas de computacin, generalmente eliminan los datos perdidos, estiman los parmetros de la muestra a partir de los casos vlidos; sera una primera forma bsica de imputacin. Si se trabaja con una variable esto se puede; sin embargo, en el anlisis multivariable, este mtodo puede implicar una reduccin importante de los datos, ya que el programa slo cruza los datos vlidos en varias variable[footnoteRef:4], lo que complejiza el asunto. [4: Si se decide no imputar, hay que tener claro que se puede reducir la muestra.]

El segundo modelo de imputacin es eliminar la variable o eliminar el caso; podemos identificar que hay un par de casos que estn generando los problemas[footnoteRef:5]; tambin puede ser que una variable no funciona (la pregunta no funciona) y concentra la ausencia de datos. En estos casos, mientras no se trate de la variable principal, pueden eliminarse los casos o la variable. [5: En un par de casos de una encuesta de hogar puede ser que, en vez de haber entrevistado al jefe de hogar, un encuestador entrevist a jvenes que no tenan los conocimientos para responder.]

Luego de descartar estos procedimientos se abre la posibilidad de la imputacin, es decir, reemplazar los datos por aquellos ms parecidos.Mtodo de sustitucin por mediasEn una variable en que tengo casos perdidos, los relleno con el promedio de la variable en cuestin. Si bien estadsticamente es muy sencillo, presenta muchos problemas.1. Si reemplazo todos los perdidos de la media, se me dificulta conocer la varianza real de la muestra. Esto nos limita a la hora de la interpretaci2. Al incorporar muchas medias, cambiarn las correlaciones entre ellas, lo que me impedir conocer el tipo de correlacin realmente existente entre las variables.Imputacin por constantes (mtodo sociolgico)Criterio basado en estudios previos o criterios estadsticos[footnoteRef:6]. Yo puedo saber que en un estudio sociopoltico respecto a la posicin poltica obtengo que la media respecto a la regin metropolitana, pero tambin s que en los sectores socioeconmicos altos se vota derecha y en sectores bajos izquierda, entonces me habilita para rechazar la imputacin de medias e imputar segn un criterio sociolgico. [6: El punto de este criterio es que exige un gran acervo de conocimientos estadsticos, de experiencia previa en el tema etc.]

Imputacin por regresinMtodo de prediccin de los valores ausentes por una regresin que se hace sobre los datos ausentes en las variables; en base a esta regresin lineal se construyen proyecciones acerca del comportamiento de los datos que faltan en la curva. Mediante una regresin lineal se compara la curva real con la ideal y se posibilita una prediccin de los datos ausentes. Pareciera ser el mtodo ideal pues considera lo datos extremos y centrales, pero presenta el siguiente problema: como es la inversa a una prueba de correlacin, si haban datos que correlacionaban dbilmente, para reconstruir la curva se estableceran correlaciones ms fuertes que sin los datos ausentes.Si yo ya s que esas variables estn correlacionadas de manera significativa, no habra problema; si no se tiene esa certeza pueden inventarse correlaciones donde no las hay.Imputacin mltipleQu pasa si no s si es ms conveniente media, constante o regresin?Se trata de calcular los tres valores de los tres tests de imputacin descritos y establecer un promedio. Aunque es irse a la segura, el promedio anula la capacidad predictiva de los otros mtodos; se es el principal inconveniente.Procedimiento ModeloHay que recordar que la imputacin se puede realizar slo en modelos MCAR; si estamos hablando de modelos MAR o de empleo variables no mtricas se aplica lo siguiente:Un modelo es el test estadstico EM en SPSS. En un primer paso (paso E) estima los valores posibles de los casos perdidos, y luego, con la base imputada, en un segundo paso (M) estima los parmetros con esos valores posibles. En la medida en que este modelo trabaja con una doble imputacin le resta capacidad explicativa mi muestra.a) Conocimiento de las razones.b) Examen de los tipos de datos ausentes.c) Tratamiento de los datos ausentes Casos completos. Supresin de datos o variables. Mtodos de imputacin.2) Casos atpicosValores u observaciones que en principio se arrancan de los valores que debiera tener un conjunto de variables. Por ejemplo, sin en la CASEN por error sali muestreado Andrnico Luksic y nos dispara la base de datos qu hacemos con ese dato?2.1) Error por tipificacin.Es cuando una variable se distribuye entre valores 0 y 9 y encontramos valores 999 o 55. Este error se puede resolver por dos formas: yendo a revisar los cuestionarios[footnoteRef:7] directamente y revisar el valor escrito all; si no se tiene acceso a los cuestionarios, ese caso atpico se trata como un caso perdido. Por eso, en orden lgico, hay que revisar los casos atpicos antes de revisar los valores perdidos. [7: Por eso es importante codificar los cuestionarios, para poder asociar el cuestionario en papel.]

Si no estamos en un error de tipificacin, y de todas formas tenemos un dato que escapa a todo valor aceptable podemos encontrarnos con dos opciones:2.2) Un caso extraordinario con explicacin.Podra ser que tuviramos una explicacin para el caso y podramos mantener el dato para tener representatividad de eso segmentos en la base.2.3) Caso extraordinario sin explicacin.Si no tenemos explicacin para los datos aberrantes igual podramos decidir mantenerlos. Por qu se defiende mantenerlos si me dispara los clculos en la muestra? Porque tiene el riesgo de eliminar a un segmento de la poblacin en mi muestra.2.4) Observaciones fuera de rangoCmo s si un dato es atpico? Mediante frmulas grficas o mediante tests estadsticos. Pero cualquiera sea el mtodo hay que tener claro cul ser mi criterio para determinar si un valor ser tpico o atpicoDeteccin univarianteMediante el grfico de cajas podemos saber que tan concentrada est la variable. Y la caja representa la concentracin de la variable entre el cuartil uno y el cuartil tres.

Si es una muestra es mayor a 80, una muestra pequea se recomienda trabajar con un z de 2,5. Si es menor a 80 casos se recomienda un z de 3 o 4Deteccin bivariante (grfico dispersin)Ac se establece un intervalo que adquiere una forma ovalada, para determinar cuales son los casos atpicos dentro de una distribucin.

Deteccin multivarianteComo no se puede graficar, se aplica el test estadstico llamado D2 de Mahalanobis; que calcula la distancia de cada punto respecto al modelo ideal entregando un estadstico. La distancia que se ha asumido como aceptable para que est dentro del modelo, es cuando el valor p < 0,001.Luego de aplicar estos modelos de anlisis slo hemos clasificado si los casos son, o no, atpicos.Principios bajo los que funciona la estadstica multivarianteLa complejidad de la estadstica multivariable tiene que ver con el control sobre las variables. Esto luego de haber validado la base de datos (tratar los casos perdidos y los valores aberrantes).a) NormalidadEl primer supuesto que se tiene que cumplir es el supuesto de normalidad: todas las variables que entran al modelo deben ser normales y el modelo como conjunto ajustarse a la normalidad. Cmo se realiza esta comprobacin? Se debe observar si la distribucin de las variables se acerca de manera suficiente a la curva normal terica. Por eso, una buena forma de hacerlo es hacer correr el histograma para ver si los datos se ajustan o se desvan del modelo. Por qu es mejor el histograma que el test? Porque los tests funcionan para muestras de entre 30 y 1.000 casos y, aunque es raro, una muestra de menos de 30 puede ser normal, y el test no lo podra evaluar, pero el histograma s. En casos de muestras menores a 30 o mayores a 1.000.Los tests que pueden utilizarse es el Z de simetra y Z de curtosis Tambin existe el modelo de Kolmogorov-Smirnov (ajustado). Tiene la ventaja de que uno puede no conocer los parmetros de la muestra.Y el modelo Shapiro-Wilk, que tiene la ventaja de poder ocuparse para un n < 50.Para modelos multivariantes se emplean los modelos G simetra y G curtosis.Estos son tests generales para todos los modelos, pero tambin hay ajustes para los modelos especficos. Si en el test general no nos da normalidad, hay que realizar el test particular para nuestro instrumento.2) HomocedasticidadExpresin grficaLa homocedasticidad grficamente se ve de la siguiente forma. Si estamos trabajando con una correlacin lineal el supuesto es que la varianza que se establece entre cada punto, sea lo ms parecido posible (idealmente la misma). Eso significa que la correlacin entre las variables, a lo largo de toda la muestra es la misma, para toda variable esa correlacin funciona.

Puede pasar que en una parte de la curva tengamos una varianza diferente. Esto no invalida el modelo, supone una relacin diferente entre las variables

En el mbito de variables mtricas, si el problema se da en un modelo de dependencia, hay que determinar si el problema se da en la variable dependiente o independiente. En el modelo de dependencia funciona si es que hay homocedasticidad, es decir que la varianza se mantiene constante (al determinar homocedasticidad incluso se puede trabajar con variables no mtricas).Qu anlisis estadsticos se emplean? El ANOVA (test de Levene) para estadstica univariada o bivariada; MANOVA (test M de Box) en el caso del anlisis multivariante. Si trabajamos con variables dependientes se aplica un modelo de anlisis de igualdad de varianza, si se trabaja con variables independientes se aplica un modelo de covarianza; en esto est ANCOVA en univariado y MANCOVA en multivariado.Hay que considerar tambin que al igual que en la normalidad el tamao de la muestra afecta a la homocedasticidad; en muestras grandes los valores extremos tienden a dispararse.3) ColinealidadA partir de una nube de puntos, interesa que la mayor cantidad de puntos pasen por la recta. En estadstica Bivariada se trabaja con la regresin lineal, si es estadstica multivariante se trabaja con regresin mltiple. Generalmente no hay una linealidad perfecta, se trabaja con linealidad alta, baja o intermedia. SI tenemos una homocedasticidad alta igual podemos trabajar ya que hay una comportamiento relativamente regular de los datos.

Supuestos para anlisis multivariable (cada vez que se quiera hacer una anlisis multivariado deben revisarse todos estos supuestos.1. Normalidada. Kologorov-Smirnovb. Shapiro-Wilksc. Simetra2. Homocedasticidada. Test de Leveneb. M-Box3. Linealidada. Regresin linealb. Regresin mulitplePara decidir sobre la normalizacin, generalmente hay que ver los tres supuestos. SI normalizando no logramos los tres supuestos no vale la pena normalizar la variable dependiente.Felipe Ruiz BruzzoneEstudiante Sociologa, quinto semestre.Universidad de Chile.2014.Ejemplo cmo corroborar los supuestos?: base de datos Banco de ChileN = 370 casos.Variable 1: ndice de satisfaccin (10 indicadores) Variable no mtrica, escalar, ordinal Eran 10 preguntas sobre satisfaccin labora; cada variable tena valores entre 1 y 4 Se transforma en una variable discreta, mtrica, continua, con valores 1 a 4.Si bien pareciera que si no preguntamos por edad, ingreso, etc. se nos acaban las variables continuas, la gracia de construir un ndice es que a partir de variables no mtricas podemos obtener variables mtricas para poder aplicar modelos multivariantes. Si no construimos ndices, las variables independientes terminan siendo las variables independientes; la gracia de poder construir ndices es evadir eso.Variable 2 (independiente): Carga laboral (no mtrica)Se relacionara carga laboral con satisfaccin.El primer paso es verificar la normalidad de la variable. A pesar de que hay tests para probar la normalidad del modelo es conveniente revisar variable por variable la normalidad. La gran mayora de las bases de datos, vienen ponderadas; vienen ajustadas por sobre representacin o subrepresentacin para hacer que coincidan los valores de la muestra con la de la poblacin. Lo primero que hay que hacer es desactivar la funcin ponderacin porque si no se hace, la normalidad y correlacin se descontrola.Luego se debera aplicar la funcin explorar datos; nos permite definir el alfa, nos entrega la media, la desviacin estndar y generar el intervalo de confianza para medir la validez de los tests, adems, pedimos la asimetra y la curtosis. Si la asimetra es cercana a cero, es normal centrado, si es negativa, la simetra queda a la izquierda (nuestra curva queda a la derecha), si es positiva, la simetra queda a la derecha de nuestra curva. La curtosis es qu tan plana Pido el histograma, el diagrama de cajas y el diagrama de probabilidad normal. La funcin explorar nos permite ver cmo se mueve la variable.En la muestra, la simetra qued en un S = 0,23; el Z de simetra qued en 1,79; est en el lmite de lo aceptable conviene comparar con el tes de Kolmogorov Smirnov.El test K-S entrega un estadstico y un valor de significacin; para que la variable sea normal el valor de la significacin debe ser mayor o igual a 0,05. El valor dio 0,048, lo que nos indica que estamos en el lmite de la normalidad (hacia abajo).Qu podra hacer para poder emplear los datos?Disminuir el alfa? Si disminuye el alfa aumenta el error tipo 1. Se recomienda aplicar una funcin normalizadoras Si la curva est a la izquierda de la normal, se aplica Raz cuadrada; funcin inversa (si no estamos muy seguros) o logaritmo de base 10 (si la curva est a la derecha de la normal). Se trata de ajustar los valores a la curva (de raz cuadrada, inversa o logaritmo de base 10, o natural) Si no tenemos clara la pelcula, sobre qu funcin aplicar, podemos aplicar en paralelo todos. OJO, si normalizamos los datos perdemos representatividad (es una decisin personal)Hay que hacer una variable nueva con la normalizacin; al aplicar nuevamente el test K-S la significacin estadstica de 0,103 OJO normalizar tanto hace perder representatividad. Para no joder la variable dependiente, que es central en nuestro modelo, normalizaremos slo desde una significacin menor a 0,045. En el caso de las variables independientes no hay problema al normalizarANLISIS FACTORIAL Fase 1: preparacin de datos (Cea, Cap. 5):1. Comprobacion de supuestos Tamao de muestra Debe ser grande Normalidad Multivariante Linealidad entre las variables Correlacin entre variables (Multicolinealidad) mayor o igual a 0,32. Decisiones: Si las variables no estn en las mismas unidades de medida se recomienda estandarizar. Cuando se estandariza, se divide el valor que presenta cada variable, por su desviacin tpica. No estandarizar matriz variada/covariada (nombre de matriz original) Estandarizar Matriz correlacin (nombre de matriz estandarizada) A travs de los siguientes tests vamos a comprobar que exista un grado de correlacin mnima que permitan la aparicin de factores, de estas estructuras latentes; ya vi que se puede echar a correr el modelo pero estos tests me diran si me va a entregar algo estadsticamente relevante: Determinante matriz correlacin Si yo calculo el determinante de la matriz de correlacin, si me da cero implica que existe una elevada intercorrelacin. Este test no exige necesariamente la condicin de linealidad pero, por lo general se recomienda que, dada la incidencia del tamao muestral se recomienda utilizar otros tests. Prueba esfericidad Barlett (este es de los ms importantes) Este test es un poco ms complejo. Calcula un chi cuadrado particular (es una prueba de independencia entre dos variables); buscamos saber que dos variables no correlacionen: se hace un anlisis multivariado de independencia entre las variables. Como es un chi cuadrado, requiere que las variables que entren al modelo sean normales (esto nos asegura que los valores de la muestra sean extrapolables a la poblacin). La hiptesis nula es que la determinante R es distinta de 1. Porque el estadctico de Barlett funciona con un logaritmo que si R es igual a 1 todo va a darnos cero, lo que implicara que nada correlaciona. Hay que recordar que el valor de chi cuadrado tiene que ser mayor al terico y mayor a 0,05 Los siguientes tests no son tan importantes pero sirven para determinar si eliminamos variables del modelo, cuando el chi cuadrado es muy cercano al lmite, podemos aplicar alguno de los siguientes, ndice KMO y ndice de medida adecuacin muestra Son tests que no requieren normalidad Tienen un ndice global y un ndice por variables Cuando no hay normalidad aplica cuando no hay normalidad Sirven para determinar si el determinante de la matriz es suficientemente cercano a cero, permitindonos contrastar correlacin. Para no rechazar la aplicacin del modelo.El IKMO (este sera el ms pertinente) por variable corre entre cero y 1, y lo que interesa es que est lo ms cercano a 1 (un valor aceptable es sobre 00,5; menor a ese valor podramos eliminar la variables.ndice de Medida de Adecuacin de Muestra; slo tiene ndice parcial y observa la variable especfica en relacin con la correlacin de variables parcial Coeficiente correlacin mltiplo Valores perdidos y atpicosFase 2: Extraccin de factores (ACP o AFC) en ambos casos se busca que pocos factores contengan mucha varianza para que sean predicitivos.1. Extraccin: Anlisis de Componente Principal (trabaja con toda la varianza explicada, quiere decir que hay un agrupamiento de variables pero no existen factores subyacentes que expliquen la varianza): Mtodo de componente principal Arroja un matriz de variables cruzada por los componentes, indicando los lambda de correlacin; es fcil porque no tenemos que elegir un mtodo y es bastante limpio.Cada componente se expresa como una ecuacin C1 = lambda 1X1+Lambda2X2+Lambda3X3 lambdapXp. Entrega ordenados los componentes y el componente uno es el que concentra la mayor cantidad de varianza (eso nos interesa). De ah en ms quedara una varianza residual que el programa la intenta controlar construyendo un componente 2; tambin se expresa como una ecuacin y su varianza es diferente a la del componente uno (explica otra cosa). Y as en adelante, cada componente explica una varianza residual que el componente anterior no explica.La idea es que se cumpla la parsimonia y que se d una estructura simple(que un componente se lleva casi toda la varianza) Anlisis de Factor Comn (quiere decir que la varianza se acumula en ciertas variables que permiten explicar la varianza, o sea que existen F-factores subyacentes). Es ms complejo y requiere tener ms conceptos para poder hacer la interpretacin Ejes principales o Factor principal: es un modelo que no requiere normalidad ; se construye un modelo factorial donde cada variable correlaciona con un factor ms un error de la covarianza. Tambin estamos frente a una regresin lineal que ns va a dar los factores. Las variables son dependientes y sin los factores los que explican las variables. La salida arroja una tabla con las variables en las filas, los factores comunes en columnas y otras columnas como la comunalidad h cuadrad (diagonal) o cuanto aporta cada variable a la varianza comn total, y otra columna con la varianza especfica. La apuesta es que muy pocos factores acumulen la varianza comn; tambin se apuesta que hay algunas variables que aportan ms a la diagonal. Mxima verosimilitud Cuando sabemos el nmero de factores (modelo confirmatorio); se calcula un chi cuadrado. Mnimos cuadradosCuando no es un modelo confirmatorio. Puedo trabajar con mnimos cuadrados no ponderados y mnimos cuadrados ponderados. Si la comunalidad (diagonal) no tiene grandes variaciones, si la diagonal tiene valores muy parecidos, se trabaja con mnimos cuadrados no ponderados. Si hay variabilidad en la comunalidad, hay que emplear mnimos cuadrados ponderados; para saber como se comporta la comunalidad, le pedimos al modelo de factor principal que nos arroje la comunalidad y as podremos saber si empleamos mnimos cuadrados ponderados o no.Este modelo tambin arroja un chi cuadrado, que nos permite extraer los factores y determinar cules factores se van a incluir. Nos va a arrojar una matriz de correlacin y a partir de ella obtenemos los valores de los factores. Factorizacin de alfa no requiere normalidad pues se asume que las variables ajustan a la poblacin con un alfa conocido. (alfa de cronbach, mayor o igual a 0,8) El modelo supone que ese modelo terico de alfa existe , entonces uno puede despreocuparse de que las variables no sean normales, porque se asume que los resultados son equivalentes a los de la poblacin. Es una forma de entrar al anlisis factorial sin normalizar variables, pero el supuesto funciona para variables muy comprobadadas2. Nmero de factores seleccionadosMirando la tabla que arroja el modelo de factor comn o de componente principal hayq seguir algunos criterios para saber con cuantos factores (F) uno se queda:I. AUTOVALORES (suma cuadrados): Cada auto valor corresponde a un factor o un componente: es la cantidad de varianza explicada por el factor comn o componente principal. Si estamos en un componente principal, uno debiera esperar que el autovalor sea mayor a 1 para que tenga la posibilidad de ingresar al modelo, si es uno o menos que uno se descarta (una varianza de 1 sera su propia varianza). En el caso de los factores, cabe esperar que la varianza del factor, que el autovalor superara al promedio de las varianzas de los factores para tener la posibilidad de ingresar al modelo (varianza expresada en la comunalidad, dividir autovalor de la comunalidad por la cantidad de factores).II. % DE VARIANZA TOTAL (fila % de varianza comn total) se acepta que si presenta un % de varianza total mayor o igual al 60% se incluye en el modelo.

Mtodos complementariosIII. Grfico de sedimentacin: pone en las y las variaciones de los autovalores, y en el eje x pone el nmero de complementos o factores; en general en los tres primeros factores se juega la explicacin. Hay un punto de inflexin si es en CP el valor es 1 y en el caso de F es el promedio de la comunalidad - que determina el corte donde se aceptan o rechazan los factoresIV. SIGNIFICACIN ESTADSTICA CHI CUADRADO: Si la significacin estadstica de Chi cuadrado es cercana a cero nos aseguramos de que los factores o componentes correlacionan entre s, por eso, para asegurar que el modelo sea estadsticamente significativo hay que ver que la significacin sea menor a 0,5. El problema es que chi cuadrado en muestras grandes >1.000 casos todo correlaciona (chi cuadrado = 0); sirve slo para muestras >50 y 1.000; sobre 1.500 las significaciones siempre dan cero). Slo sirve el KMO ya que no hems comprobado normalidad y por la cantidad de casos. Se pide la matriz de anti imagen por que se pueden calcular KMO globales o individuales. En caso de que el KMO global est bajo 0,05, hay que revisar el KMO individual, que son las diagonales de la matriz anti imagen. Se espera que los KMO diagonales estn sobre 0,05. Los que estn fuera de las diagonales se esperan valores bajo 0,03.Volvemos al anlisis factorial y vamos a mtodos de extraccin:Vamos a ver extraccin factores por eje principalUna cosa es que si trabajamos con la varianza total (componente principal) o la covarianza (factor comn), y otra cosa distinta es la matriz de correlacin o la matriz de covarianza. La segunda trabaja con los valores brutos, y no presenta la correlacin en las diagonales. Si los valores tienen que estandarizarse (o sea si hay varianzas diferentes entre s), por defecto hay que entrar a la de correlacin. Cuando es obligatoria la correlacin, no vale la varianza. Para efectos de interpretacin siempre se trabaja con la matriz de correlacin. Primero pediremos los valores sin rotar, y el grfico de sedimentacin.Luego pedimos que trabaje los autovalores con el valor por defecto 1; si deja muchos valores fuera hay que cambiarlo al promedio de la comunalidad final. se es el criterio para cuntos factores se van a incorporar al modelo.Si fuera confirmatorio le pediramos el nmero de factores, pero no es el caso.Analizamos la comunalidad. Se busca que la extraccin tenga valores un poco mayor en la comunalidad de extraccin que la inicial que por lo menos debiera ser 0,3) (si fuera componente principal, la inicial seran puros 1) Matriz reproducida. Matriz que extrae las comunalidades, ya sea de componente principal o de factor comn. La comunalidad slo se observa si es pertinente hacer el anlisis factorial. Al analizar la varianza total explicada, vemos que hay factores con mucho peso. Cul es el criterio para elegir los factores? Una forma es ver la varianza total acumulada. El criterio es parsimonia. Al menos un 60% de varianza es un buen corte para hacer el corte de factores. Si el factor se asoci a slo una variable es problemtico porque no alcanzara el supuesto bsico del modelo. Ac evaluamos que factores incorporamos al modelo.La agrupacin de las variables en factores, nos indica que hay variables que tienen estructuras latentes, que nos permiten agruparlas en un factor comn. Nos sirve para evaluar qu variables se incluyen en qu factor.RotacinLa rotacin, manteniendo la varianza total, permite reordenar para que las varianzas se definan por uno u otro factor. Al pedir la rotacin, no muestra varios mtodos. Por lo general, pediremos Varimax o Quartimax. El primero es un buen mtodo de rotacin cuando las comunalidades son muy heterogneas. Cuando hay comunalidades muy parecidas es pertinente Quartimax. Si estamos en la duda, se pueden tirar las dos y ver cul ajusta mejor. Hay que recordar que no estamos trabajnado con los valores de las variables, sino con la varianza total. Simplemente se ajusta el eje cartesiano para que se diferencien bien las nubes de puntos.PuntajesPedimos que los puntajes los guarde como variables, es til pues no permite hacer otros anlisis. Tambin pedimos que despliegue la matriz de puntajes facrial.OpcionesOrdenar los casos segn orden.Pedimos que entregue los valores significativos sobre el nmero que nosotros definamos.AnlisisLos factores comunes nos dan la pauta para construir ndices por ejemplo, al descubrir estructuras latentes que agrupan a las variables.La matriz de puntuaciones nos da el puntaje del factor por variable. Sirve para otros mtodos.Unidad III: Anlisis por correspondencia (simple y mltiple)El grueso de los principios del mltiple sirven para la mltiple. El simple es bivaraido, el mltiple es tres variables o ms.Trabaja con variables cualitativas (nominales u ordinales) por lo que tiene harto uso en ciencias sociales. Su algoritmo no permite trabajar con variables dicotmicas.La interpretacin gruesa se remite al grfico. A diferencia del anlisis factorial, donde se pueden incorporar muchas variables, el anlisis por correspondencia incorpora ms variables. El anlisis por correspondencia mltiple aguanta hasta 5 variables.No necesita pruebas de significacin estadstica. NO requiere linealidad, normalidad, tampoco se aplican coeficientes de correlacin. Es un anlisis que busca establecer distancias entre puntos y se espera que a partir de ciertos indicadores del grfico perceptual, se espera que puntos que estn cerca se relacionen.El supuesto bsico del anlisis por correspondencia (es un anlisis de interdependencia) es que permite representar una tabla de contingencia. Permite correlacionar variables, entre categoras o la relacin entre cateforas u variables. Es una solucin bivariado o multivariada, que permite representar ms all de las frecuencias, una tabla de contingencia. Supone que ilustra algo que las variables por s solas no hubieran indicado.Variable 1/variable 2Categora 1Categora 2Categora 3Total V2

Categora 1

Categora 2

Categora 3

Total V1n parcialn parcialn parcialN

En esta tabla ya tenemos nueve puntos. El mapa perceptual no es sino todos los cruces que presenta la tabla de contingencia. Por eso se recomienda no trabajar con excesivas variables o excesivas categoras. I x J, la cantidad de filas por la cantidad de columnas indica la cantidad de puntos.Este anlisis no trabajo con frecuencias absolutas; tiene que pasarse de una tabla de frecuencias con los valores absolutos a una tabla de frecuencias expresada en porcentaje:Hay tres tipos:1. Perfil fila. (Divisin por N parcial fila). El mapa perceptual ser mucho ms sensible respecto a las distancias de las filas.2. Perfil columna. (Divisin por N parcial columna). El mapa perceptual ser mucho ms sensible respecto a las distancias de las columnas.3. Perfil fila-columna. (Divisin por el N total). Este perfil estabiliza la diferencia entre los perfiles anteriores.La lgica es que busca una relacin de distancia (cercana-lejana) entre los puntos. Para eso tratar de maximizar la distancia entre los distintos, y minimizar las distancias entre los similares.Hay que manejar tres frmulas para determinar la posicin de los puntos. Se define un centro de gravedad a partir de la tabla de frecuencia. Permite evaluar las distancias. Esto no es siempre el (0,0), por lo que algunos casos quedarn fuera del rango.

Distancia de Benzecri Inercia I. El mapa perceptual requiere saber donde estn los ejes de ese mapa. Para eso se calcula la inercia, una mediad de ajuste que permite saber que tan dispersas estn los valores.

Interesa que sea mayor a 0,2 para poder hacer el anlisis.Mapa perceptualEl mapa de percepciones representa la distancia que hay entre las categoras de la variables. Y como se representan todas las categoras, podemos saber la distancia entre las variables. Se busca el eje de coordenadas que tenga la mayor inercia de todas. Al final se ordenan los puntos en un x e y positivos, que permiten evaluar las distancias maximizando la cercana o lejana, facilitando la interpretacin grfica.1. El primer paso es decidir sobre el tipo de perfil.Clculo del centro de gravedad.2. Clculo de la distancia. 3. El modelo define los ejes ortogonales (el que explica mejor acumulando la mayor inercia). De una cantidad infinita de coordenadas ortogonales.Las correspondencias se encuentran en los cuadrantes de igual signo. Las correspondencias en cuadrantes de signo mixto son ms dbiles.

Anlisis de correspondencia mltipleDefinicinComo extensin del anlisis de correspondencia simple, es una tcnica bastante intuitiva que requiere pocos supuestos estadsticos. Permite comparar no slo variables, sino al mismo tiempo categoras de las variables. El primer componente est en el eje de las x, siendo el ms fcil de interpretar, y el eje y es menos intuitivo. Para calcular la posicin de cada punto en elmapa desde una tabla de doble entrada, se requera un centroide, una distancia y una inercia. En rigor cada categora se calcula independientemente, como si fuera categoras no relacionadas. El punto es que como no estamos ante variables mtricas, no pdoemos saber la distancia entre una variable y otra. Lo que hace el anlisis de correspondencias es que reordena variables con sus categoras, en un eje de coordenadas que posibilita la comparacin: hace mtricas variables que no son mtricas. Este anlisis toma las frecuencias de la tabla de contingencia y los lleva a un sistema mtrico donde esas distancias se hacen observables. El problema es que el sistema posiciona los puntos de manera aislada, entonces se requiere posicionarlos en un eje de coordenadas comn que permita compara las distancias. Como en un punto se pueden pasar infinitos ejes ortogonales, el punto es encontrar el eje que maximice la varianza. El algoritmo hace un anlisis factorial que permite determinar cules son los dos principales componentes en que se agrupan las variables. El corte que hace el eje x es el componente 1, y el corte que hace el eje y es el componente 2. El anlisis se realiza siempre primero respecto al eje x, o sea el lado izquierdo y derecho del grfico (es el ms fcil de interpretar). Luego se analiza respecto al eje y, o sea, la parte de arriba y abajo del grfico (ste es ms difcil de interpretar). No es fcil interpretar cercana/lejana en un mismo cuadrante.El anlisis de correspondencia mltiple tiene dos diferencias fundamentales respecto al simple:1. Trabaja con dos o ms variables. Incorpora la posibilidad de incluir una tercera variable. (En rigor se pueden agregar cuantas se quiera, pero ms de tres es muy compleja la interpretacin de la nube de puntos). El criterio general es que el anlisis de la nube de puntos resulte susceptible de interpretacin.2. Permite variables dicotmicas. En el SPSS se llama Escalamiento ptimo.Otro elemento diferenciador es que podemos tener una variable como pas, regin o universidad, que queremos caracterizar como un caso particular, se incorpora al anlisis como variable objeto. Son puntos que se ingresan directamente al grfico, y slo tiene dos posibilidades: ser o no ser Universidad de Chile, por ejemplo. Para la interpretacin, el lmite generalmente est dado por una variable objeto y dos variables no objeto. Mediante el mtodo de escalamiento ptimo permiten obtener las puntuaciones objeto y la cuantificacin de categoras.

Procedimiento en SPSSBase de datos: Encuesta CEP 70 Sept-OCt 2013Se harn dos anlisis de correspondencia simple. Se emplearn las variables: Si las elecciones fueran maana, por quin votara? y la seguridad de ir a votar. Se permite agrupar intenciones de voto con candidatos.Se emplea el comando anlisis Reduccin de factores, que nos presenta Anlisis de correspondencia (correspondencia simple) y escalamiento ptimo (correspondencia mltiple).Se debe construir una tabla de doble entrada, poniendo en las filas la intencin de ir a votar. En cada fila y columna se deben especificar el rango que se considerar de la variable (apretando el botn derecho sobre la casilla donde se ingresa la variable podemos ver su etiqueta y valores sin cerrar el comando del anlisis). En las columnas se agrega la intencin de voto por candidato.En rigor filas y columnas no implican diferencias analticas. Ahora, si tenemos una certeza terica, podemos normalizar por filas o columnas. SI no tenemos la certeza podemos normalizar por el N total (normalizacin simtrica). La normalizacin en rigor sirve para maximizar la inercia y facilitar la interpretacin.Vamos al comando modelo1. Le pedimos trabajar con 2 dimensiones. 2. Debemos trabajar con la medicin de distancia chi cuadrado.3. En este comando tambin debemos definir el mtodo de normalizacin.Estadsticos1. Tabla de correspondencia2. Puntuaciones fila y columna.Grficos 1. Conjunto (final)2. Fila 3. ColumnaResultados:Tenemos la tabla de correspondencia en primer lugarLuego viene la tabla de componentes titulada como resmenes, donde podemos ver la capacidad explicativa de los ejes.Luego viene la tabla de examen de los puntos fila.Ya que se normaliz simtricamente la distantica es proporcional en ambos casos, elegimos no maximizar la inercia para ninguna de las dimensiones. Las puntuaciones en cada dimensin nos permite construir los puntos que se marcarn en el grfico XY (dimensin 1 y 2, eje x e y respectivamente). Los casos de Sfeir, Miranda, Jocelyn Holy prcticamente no cuentan con casos para ser interpretados. La distribucin normal supone al menos 30 casos, relajadamente y 50 rigurosamente.

En este grfico atendiendo a que la dimensin estadsticamente ms relevante es la 1, vemos que se garupan los puntos en inters-desinters .

En este, si atendemos a la dimensin, 2, podramos relacionar candidaturas de derecha e izquierda.

En este caso, luego de filtrar por los 4 primeras alternativas vemos el agrupamiento de intereses y candidatos. Lo importante es preguntarse que tienen de comn y en que se diferencian