Herramientas de Análisis Estadísticos
-
Upload
chuito2013 -
Category
Documents
-
view
16 -
download
0
description
Transcript of Herramientas de Análisis Estadísticos
-
Herramientas de anlisis
El objetivo de este mdulo es conocer las caractersticas que subyacen en cada
definicin o conceptos para realizar un anlisis cuantitativo de informacin.
Especficamente la estructura de la materia est dividida en dos partes: Una que
se denomina estadstica descriptiva y otra la estadstica analtica. La estadstica
trata del tratamiento de variables, ms all de que esa variable sea un dato
socioeconmico, la talla o la cifra de presin arterial.
El desarrollo o historia de la estadstica a grandes rasgos
Cuando surge la teora estadstica inferencial? Surge en Inglaterra a fines del
siglo pasado, a lo largo del ao 30 se terminan de desarrollar los test de hiptesis.
La estadstica sobre la recoleccin cuantitativa de informacin es mucha ms
antigua, se hacen compilaciones de datos en grandes cantidades, que es muy
antigua, que comienza a permitir estudiar determinados fenmenos (nacimientos,
muertes), esto permite conseguir ciertas regularidades en la presentacin de
ciertos resultados.
Otro elemento importante en la aparicin de la teora de la probabilidad, a
mediados del siglo 17, con el intercambio epistolar entre Pascal y Fermat (1550),
los resultados de los juegos de azar, que se repetan con cierta frecuencia, son los
primeros elementos para proponer la teora estadstica de la probabilidad.
Bernoulli 1713, frmula nuevas propuestas que engrosan la teora probabilstica,
como uno de los primeros pilares. Bayes, con su teorema que resolvi algunos
interrogantes de la teora probabilstica. La propuesta de Bayes se convirti, en
una propuesta que aplica los nuevos sistemas de los computadores, que requiere un
gran volumen de clculos, esto dio lugar a la inferencia bayesiana.
En 1833, empezar a imaginar la mecanizacin del proceso de cmputo. Luego viene
Gauss, desde el 1800 con la curva de Gauss. Tambin tenemos el Chi cuadrado (x2),
es un desarrollo del 1900, por Karl Pearson, l fue uno de los pilares de la
estadstica, se le considera el padre de la estadstica a Sir Ronald Peter, que
publica en 1925, un libro sobre Estadstica para el Investigador, es la piedra
fundamental de la teora estadstica y el experimento estadstico. Tambin
tenemos a Neihman y Pearson que propusieron el test de hiptesis.
A partir de all comienza a acelerarse la produccin de la tcnica estadstica y la
tcnica estadstica. A partir del ao 50, y nuevas teoras como la bayesiana, otros
-
enfocan el anlisis estadstico como un anlisis exploratorio de un conjunto de
datos, voy a explorar y analizar que regularidades presentan, y a partir de all,
hacerme una idea de la realidad a partir del anlisis de este conjunto de datos. El
desarrollo de Fisher (1922), aunque Fisher era muy abarcativo, indagar en los
datos para ver qu elementos voy a utilizar para analizar esos datos. Luego vino la
computadora (1990), uno tiene en la computadora una serie de datos que vamos a
analizar le aplica un programa para obtener la informacin o plantear un modelo que
simula lo que puede pasar para analizar el comportamiento de los fenmenos.
Es importante definir lo que conocemos actualmente como estadstica, as podemos
considerar una propuesta de un doctor en estadstica en Canad, que describe a la
estadstica, bastante adecuada a la concepcin moderna de estadstica, como la
ciencia y la prctica del desarrollo de conocimientos humano a travs de la
utilizacin de datos empricos expresados en forma cuantitativa, como una rama de
la teora estadstica que son modelados por la incertidumbre y por la aleatoriedad,
como uno de los fundamentos de la teora de la probabilidad. Debido a que uno de
los objetivos de la estadstica es producir la mejor informacin a partir de los
datos disponibles, algunos autores consideran a la estadstica una rama de la teora
de la decisin. La prctica estadstica incluye la planificacin, resumen e
interpretacin de la informacin tomando en cuenta la variabilidad y la
incertidumbre, estos dos conceptos estn siempre presentes en cualquier tcnica
estadstica, sobre todo el de variabilidad en cualquiera de ellos y el de
incertidumbre porque la estadstica se basa en analizar la informacin proveniente
de una muestra y no de una poblacin completa, y esta muestra se supone que ha
sido seleccionada por algn mecanismo aleatorio, por lo tanto tenemos un
componente de azar dentro de los resultados que estamos analizando de nuestro
conjunto de datos donde la aleatoriedad cumple un papel fundamental en este
anlisis.
Otra definicin de estadstica es la ciencia que se ocupa de la recoleccin de la
informacin, anlisis e interpretacin de los resultados. Algunos asumen que la
estadstica es la lgica de la medicin.
Una vez hecho el panorama de a que nos vamos a dedicar en este mdulo, vamos a
comenzar con lo que tiene que ver con el anlisis de distintas variables.
En el tratamiento de los datos estadsticos vamos a suponer que tenemos a un
conjunto de observaciones y que sobre esas observaciones hemos realizado
medicin de variables.
Ya aqu comienza el primer problema que es que entendemos por concepto de
variable, podramos decir cmo es que algo que cambia de valores, es decir, que
-
vara. Los tipos de variables, y la conceptualizacin de variables son muy
diferentes, por las diferentes definiciones de las distintas disciplinas que abordan
estos temas. Por ejemplo, podemos tener la definicin de variable, como la
caracterstica o propiedad de un hecho o fenmeno que puede variar entre
unidades o conjuntos. Otra definicin, es una caracterstica que puede ser medida
u observada. En las matemticas, una variable es un smbolo que puede tomar un
valor de un conjunto determinado, a este valor del conjunto determinado se le
denomina dominio de la variable.
El tema es como llegar a la variable X y a los valores de esa variable, si estamos
partiendo de un problema que requiere de una caracterizacin y definicin
conceptual de un problema, que a veces no es tan sencillo de hacer, que es definir
una caracterstica que pueda ser medida y observada, es decir, que el investigador
tiene que poder llegar a medir, obtener un valor de la variable para luego poder
llegar a hacer el anlisis y el procesamiento y el anlisis de esa informacin con
distintos mtodos estadsticos.
Ahora vamos a ver ciertos en las cuestiones de metodologa de la investigacin.
Existen ciertos usos que no es igual a las definiciones en la estadstica que en,
otras disciplinas, como puede ser la metodologa de la investigacin, acerca de que
se entiende por variables o que se entiende por indicadores.
Supongamos que tenemos un trabajo de investigacin y llegamos a plantear la
siguiente hiptesis: los nios crecen ms rpidamente si consumen vegetales.
Fjense que en toda hiptesis estn en juego las relaciones o se presentan las
variables que van a ser objeto de nuestra investigacin.
Cmo podemos hacer para medir las variables que figuran en esta hiptesis? Son
directamente medibles? Cmo, por ejemplo? Ah ver cmo haran?
Primero lo que podemos decir es que crecer no algo que se puede medir
directamente, en cambio si hubiera dicho, el peso de los nios se incrementa ms
rpidamente si comen vegetales, el peso del nio es algo que si se puede medir
directamente, por eso tendra que decir, usando una balanza de tal tipo y de tal
otro, tendr que buscar el instrumento para cuantificar el peso, con una balanza
para medir el peso, que es un concepto ms claro que se puede medir, en cambio el
concepto crece, es un concepto ms amplio que el peso. En este sentido el peso es
una variable que se refiere a una conceptualizacin, es decir una definicin
conceptual y esa conceptualizacin nos va a permitir definir, tambin, cul va a ser
la forma de definicin de esa variable.
-
Lo mismo que el consumo de vegetales, podemos hacer una encuesta que diga:
Usted consume vegetales? Seguro que vamos a querer acotar un poco, o qu se
entiende por consumo de vegetales, cul es la frecuencia, que tipos de vegetales,
es decir, vamos a tener distintos tipos de elementos que componen esas variables,
por lo tanto, por lo tanto es importante definir las variables que permitan la
reproduccin exacta del proceso de investigacin, esto es clave en cualquier
investigacin, ya sea cualitativa o cuantitativa, el hecho de que la misma pueda ser
reproducida, que cualquier otra persona que lea el apartado de los materiales y
mtodos del trabajo de investigacin, puede llegar a replicar esa investigacin, y si
yo no soy claro en lo que yo entiendo por estos conceptos y como los voy a medir,
cualquier otra persona puede entender cualquier otra cosa y medir en forma
diferente estas variables.
Entonces lo primero que tenemos que hacer es identificar las variables que
intervienen en la pregunta de investigacin, por lo tanto, se puede decir que la
identificacin de las variables se inicia cuando se explicita el problema, los
objetivos y contina con el marco terico, va a hacer falta conceptualizacin de las
variables que van a intervenir en la investigacin que se realice e insisto que esa
identificacin adecuada y conceptualizacin es crucial porque es esto lo que va a
establecer cmo se va a medir esa variable.
La misma variable que mencionbamos recin, el peso, estbamos hablando del
aumento de peso de los nios, estoy presuponiendo que probablemente para este
caso el peso en kilos de los nios con una determinada cantidad de decimales, y a su
vez que voy a tomar esa medida a travs de una balanza. En otro mbito yo podra
medir el peso preguntndole a la persona que cunto pesa, es tambin un
instrumento de medicin. Tendramos dos tipos de instrumento una es a travs de
la declaracin de la persona y la otra es un instrumento que podramos decir que es
ms objetivo en esa medicin. Pero en otros casos el peso, podramos decir en el
caso de los nios recin nacidos, se podra decir si pesa ms o menos de 2.500
gramos, es lmite de bajo peso al nacer.
Fjense que la forma en que estamos midiendo, a pesar de que el concepto es el
mismo, es el peso de un individuo, la forma en que estamos definiendo su medicin
es totalmente distinta, ya sea en 2 categoras, para el caso del nio, es los valores
que me d la balanza en la que puedo predefinir niveles de precisin, o a travs de
la declaracin de la persona, seguramente, voy a tener problemas de redondeo y
una precisin menor que la que pueda tener con una balanza. Entonces este es el
objetivo de identificar correctamente las variables que persigo.
-
Dentro de los ejemplos que plantea el material bibliogrfico, el libro de Pineda,
habla por ejemplo de factores econmicos, fjense que hay variables mucho ms
complejas que otras, hay variables mucho ms complejas que otras, si yo hablo de
factores econmicos la amplitud de ese concepto requiere necesariamente hacer
un recorte y definir claramente que es lo que vamos a entender por factores
econmicos. Para hacer este recorte tenemos que basarnos en cul es nuestro
marco terico. Quizs podamos hablar del ingreso del padre, o del ingreso del jefe
del hogar o del ingreso del hogar en su conjunto, si adems perciben o no subsidios,
y probablemente cuando hacemos la revisin bibliogrfica o de nuestra
investigacin, vamos a encontrar que existen otros aspectos sobre este concepto
de factores econmicos que sea necesario o interesante incluir, como por ejemplo,
el nivel de instruccin del padre. Ahora una vez que hemos logrado realizar una
definicin de nuestra variable lo que tenemos que revisar luego es lo que se conoce
con el nombre de Proceso de Operacionalizacin de esa variable, que es uno de los
procesos ms difciles de la investigacin cuando estamos hablando obviamente de
variables que tienen un nivel de complejidad grande, obviamente si estamos
hablando sobre el peso nos pondremos de acuerdo rpidamente Pero si por
ejemplo, si tomamos la variable obstculo, que entiendo por obstculo, como
ponemos medir obstculo, necesariamente se debe hacer la definicin operativa de
que se entiende obstculo, una vez hecha la definicin operativa, lo que se va a
necesitar revisar es lo que se conoce con el nombre de Operacionalizacin, es
decir, como llevar de ese plano abstracto al plano practico que el investigador
pueda en el estudio que estudio que est haciendo sea viable de medir, que en el
enfoque cuantitativo se requiere medir tener una medicin, por lo tanto, esta
operacionalizacin es la que nos lleva de un nivel abstracto a un plano ms concreto
y en este proceso lo que vamos a lograr hacer es decir o explicar cmo se miden las
variables que se han seleccionado en el estudio que est desarrollando el
investigador, y su funcin bsica es precisar al mximo el significado o el valor que
se le otorgue a la variable en un determinado estudio, que puede ser diferente, por
ejemplo, la pobreza. Si hablamos de pobreza, como medimos la pobreza, bueno si un
estudio decide hacerlo a travs de si el hogar es pobre o indigente tomando en
cuenta el nivel de ingreso que tiene ese hogar, o a lo mejor otro decide hacerlo con
otro indicador llamado Necesidades Bsicas Insatisfecha (NBI), que no toma en
cuenta el valor monetario del ingreso. Si bien estos dos indicadores estn
vinculados con pobreza, miden aspectos diferentes de este concepto, y no
necesariamente son comparables uno con otro. Desde un punto de vista tcnico,
tengo que considerar cual es mi conceptualizacin de esta variable y podra tener
un resultado diferente a otro estudio, por eso lo importante es que est claro en el
estudio es cul fue esa conceptualizacin, porque si no es as no puedo entender a
-
qu se debe la diferencia entre ambos estudios. El marco terico y los objetivos
son los que van a definir porque eleg esa variable.
Algunas variables no ofrecen mucha dificultad, o a la mejor s como es el caso del
sexo o gnero, y en el caso de la edad, puede ser que sea aparentemente sencillo,
pero hay que fijarse en lo que tiene que ver con los registros de mortalidad en los
registros de internacin, las edades se consideran diferentes o el nivel de detalle
de la edad se considera diferente si yo estoy revisando la mortalidad para un
adulto que para la mortalidad en menores de un ao, all me va interesar
desagregar la cantidad de meses, de das o de minutos que tenga el nio. De esta
manera la edad puede ser distinta de acuerdo al fenmeno que se est estudiando.
A veces, en relacin con la edad, puede considerarse tambin la edad es a qu
momento, Est bien, sabemos que la edad son los aos cumplidos, pero los aos
cumplidos cuando, cuando la persona desarroll la enfermedad, cuando hizo su
primera visita al mdico, al momento de la entrevista, entonces fjense que tengo
que definir, aunque sea edad, pero tengo que establecer la edad en que momento se
est midiendo.
Otras variables pueden aparentar no tener dificultades, una es el ingreso, pero
cuando empezamos a bucear un poco, que se entiende por ingreso de una persona o
del hogar se puede llegar a encontrar con que hace con la percepcin que tiene la
persona sobre como obtiene ese ingreso, que es lo que hace la persona para recibir
ese ingreso si es un trabajo retribuido, o es dinero que le deriva la familia o recibe
ese ingreso de un determinado plan. Entonces, tengo que poder establecer en ese
concepto de ingreso todos los elementos que vamos a considerar necesario con que
recibe de tengo que reconocer todos esos elementos del ingreso que vamos a
considerar y bueno, es este tipo de variables la que ameritar de un mayor esfuerzo
para poder realizar una correcta operacionalizacin en su contenido de medicin.
Si tenemos la variable satisfaccin del paciente o un trato humanizado, tendremos
que saber bien que entendemos sobre estos conceptos para luego poder medirlos.
Ahora veamos un ejemplo de un trabajo en relacin con el conocimiento que se
tiene sobre la trasmisin sobre el HIV Sida. Para que esto se pueda medir lo
primero que hay que establecer son los procedimientos operativos que especifican
como se har esa medicin y al mismo tiempo definir, lo que quiere decir el
investigador con conocimiento sobre cmo se trasmite el VIH sida.
Conocimiento es un concepto abstracto, lo que se necesita es un evento observable
que se pueda medir y que indique el conocimiento. Es decir, que tenemos que buscar
algo que podamos medir y que el resultado de esa medicin sea un indicador de que
la persona tiene o no ese conocimiento sobre el VIH Sida.
-
Ahora viene algo que es como una guia de cmo realizar este proceso, es una
orientacin, digamos, este proceso de operacionalizacin, es una orientacin y no
necesariamente debe realizarse con todas las variables depender del nivel de
complejidad que tenga la variable para ver hasta donde tengo que yo descomponer
ese concepto.
Muchas veces es factible descomponer una variable en distintas dimensiones o en
aspectos diferentes a pesar de que forman parte de este mismo concepto, por
ejemplo si hablamos de pobreza, podramos relacionar pobreza por un lado con lo
que tiene que ver con medios econmicos y otra lo que tiene que ver con pobreza
material, digamos como lo que veamos antes, la NBI combina cosas sobre las
caractersticas de la vivienda con las caractersticas de las personas, como nivel
de instruccin de las personas que viven en el hogar, en cambio, otra dimensin
podra que pudiramos medir es el nivel de ingresos econmicos del hogar. No
todas las variables necesitan ser descompuestas en dimensiones, hay variables en
las que uno pueda ver que hay aspectos como separados y podamos como subdividir
ese gran concepto en distintas partes que nos permita facilitar la definicin de que
es lo que vamos a ir a medir y por ltimo esas dimensiones pueden ser traducidas
en indicadores que es lo que vamos a ir a medir.
Lamentablemente la palabra indicador o indicadores, no es un trmino muy feliz
porque se entienden distintas cosas por indicador de acuerdo con a que estemos
trabajando. Por ejemplo en algunas presentaciones de Metodologa de la
Investigacin, por indicador ya se habla de un ndice que est expresando una
caracterstica del sujeto o del objeto que estemos analizando. Por ejemplo el NBI
seria sera el indicador o el porcentaje de personas indigentes es un indicador.
Desde la estadstica estamos como un paso antes, si vamos a construir el NBI
vamos a necesitar distintas variables definidas desde el punto de vista estadstico,
voy a necesitar saber si hay hacinamiento, o el nmero de personas por cuarto,
tengo que saber cul es el nivel de instruccin del jefe del hogar, luego con cada
uno de esos elementos que son variables desde el punto de vista estadstico yo lo
voy a sintetizar en un solo indicador como el NBI, pero fjense, que cuando vemos
el material de Metodologa de la Investigacin, pasan de las variables conceptuales
a tener un indicador. En la edad, por ejemplo, cul sera ese indicador relacionado
con la edad, en realidad si estamos hablando sobre los de bajo peso serian el
porcentaje de nios con bajo peso, sera el porcentaje de nios que estn por
debajo de 2.500 gramos, pero en realidad lo que yo voy a medir es el peso de los
recin nacidos, es como una seal o caracterstica de determinado sujeto u objeto
que estamos viendo o estudiando. Ejemplo, si yo mido la presin arterial a travs de
un manguito eso me va a dar un valor numrico, es eso un indicador de
-
hipertensin arterial?, no porque yo tengo la medicin de la presin sangunea para
convertirlo en un indicador de la hipertensin arterial, tengo que definir un valor a
partir del cual yo voy a considerar que esa medicin es un indicador de la
hipertensin arterial de esa persona. Algunos autores definen un ndice seria la
medicin de lo que yo estoy revisando y un indicador seran los valores que me
indican algo con respecto de ese sujeto, por ejemplo que es hipertenso.
Vamos por ejemplo un indicador y un ndice sencillo o simple, consideremos la tasa
de mortalidad infantil, vera la tasa como valor puede ser cualquier valor que puede
ser desde cero hasta el valor que se produzca, pero cuando considero importante
ese valor de mortalidad infantil, cuando ese valor supere determinados valores, que
segn el consenso considerado en determinada poca segn el conocimiento
cientfico y tecnolgico, y de la atencin de la salud, sabemos que una tasa de
mortalidad infantil de ms de 15 por mil, es una situacin grave para la poblacin
infantil. Yo cuando mido, mido el valor de la mortalidad infantil, luego hare una
caracterizacin de esa poblacin a partir de determinado valor, es decir una tasa
de mortalidad infantil elevada es un indicador de una situacin de salud
desfavorable de la salud de la poblacin infantil de esa regin, por eso decimos que
el concepto de indicador es diferente de acuerdo a la disciplina en la cual estemos
viendo el uso de ese trmino.
Que implica el proceso de dividir una variable en dimensiones, es como separar
componentes en aspectos diferentes que puede tener ese concepto, es decir, por
dimensin se entiende un componente significativo de una variable que posee una
relativa autonoma. Una misma cualidad puede considerarse como una variable en si
o como una dimensin de una variable mayor, segn el enfoque y el propsito que
tiene cada investigacin. No se trata de definiciones de carcter instrumental, lo
que significa que no siempre es necesario dividir una variable en dimensiones y una
misma variable puede tener de acuerdo a distintos trabajos distintas dimensiones
y a su vez cada dimensin puede tener ms dimensiones. Es un proceso, digamos,
que nos orienta a llegar al final que nos interesa, que es la posibilidad de definir
algo que sea medible u observable.
Bueno como comentamos anteriormente en el trabajo de Pineda sobre indicadores,
para ello nos informan que no siempre los indicadores son fciles de medir y a
veces tienen que ser sustituidos por otros que son menos confiables pero ms
accesibles al investigador. Un ejemplo de esto lo tenemos en la encuesta de
factores de riesgo en Argentina, cmo se mide la hipertensin en la encuesta de
factores de riesgo?, o si la persona es diabtica por referencia de la persona, este
estudio se hizo de esa manera por la cuestin econmica de la viabilidad. Porque
tomarle la presin a todas las personas tiene un costo adems tengo que
-
asegurarme que los aparatos sean todos iguales y que estn calibrados y dems, la
declaracin de la persona tambin tiene un costo pero es ms barato pero podra
llegar a tener un nivel mayor de error en la declaracin, all uno tendr que hacer
un balance entre el nivel de error de la medicin contrastndolo con el costo
operativo que se tendr con el uso de los tensimetros. En cambio la encuesta
Nacional de Nutricin y Salud que se hizo en el 2004, tena una muestra y una
submuestra a la cual se le haca extraccin de sangre, y a esa sangre se le
realizaron una serie de anlisis para las mediciones de las variables que
determinaron o no las carencias de la poblacin materno infantil con determinadas
caractersticas. Bueno algunas veces uno tiene que resignar el nivel de precisin de
la variable que tiene objeto de estudio, puede sacrificar precisin, pero se sabe
que se va a poder hacer viable el registro de esa variable. Y otro que los
indicadores sugeridos no midan exactamente la variable en cuestin sino un
aspecto colateral que en realidad posee menor relevancia que si tuviramos el valor
de la variable tal como quisiramos pero nuevamente la practicidad de la medicin
lo hace viable. Un ejemplo de esto es lo que sucede con el indicador nivel de
instruccin como un proxy del nivel socio econmico de la persona, pues para hacer
una medicin ms precisa tendramos que tener entre otros elementos el nivel de
ingresos, pero se ha demostrado que el nivel de instruccin es una caracterstica
fuertemente relacionada con el nivel socio econmico y explica bien el fenmeno
que uno est analizando.
Bueno y para resumir todo este proceso, podemos decir que a partir de una
variable terica y que es compleja, definir que es un conjunto para el cual
necesitamos hacer una definicin. Esa definicin conceptual puede ser desagregada
o no en distintas dimensiones. Cada una de esas dimensiones necesita de una
definicin operacional, es decir, como vamos a realizar la medida. Eso es lo que nos
va a permitir obtener lo que podemos llamar Variable Emprica, sobre esta variable
emprica es que nosotros vamos a aplicar distintos mtodos de procesamiento
estadstico.
Vamos a revisar este ejemplo que tiene que ver con la accesibilidad de los usuarios
al centro de salud. Entre las variables que se presentan la accesibilidad geogrfica
medida como el tiempo que el usuario tarda en llegar al centro de salud. Fjense
que esta es una variable que nosotros podemos medir, porque si colocamos en una
encuesta, Cunto tarda usted en llegar al centro de salud? Eso lo podemos medir
en minutos que tarda en llegar el usuario desde el domicilio al centro de salud. En el
caso de accesibilidad econmica, tenemos los ejemplos de la cantidad de dinero que
gasta para recibir la atencin y el otro dice tipo de va econmica para cubrir este
-
gasto, esto entendemos que quiere decir si tiene la disponibilidad econmica para
cubrir el gasto de la atencin.
Miremos ahora sobre la accesibilidad cultural los indicadores que ponen
(percepcin y conocimiento) son sub dimensiones de esa variable que estamos
considerando. Habra que llegar a algo equivalente a conocimiento y percepcin que
sea medible u observables.
En muchos trabajos publican lo que se llama las matrices de datos, donde aparecen
las variables, la definicin conceptual de esas variables, la escala de medicin y los
indicadores y muchas veces se observan muchos problemas para la confeccin de
estas matrices. Otro ejemplo es un material que est enfocado a un problema
escolar. Lo que presentan los autores nos dan como variable la integracin escolar,
en la definicin conceptual: grado de aceptacin de la comunidad escolar regular
para aprender y convivir con nios con capacidades especiales. Descomponen estas
variables en distintas dimensiones, una primera dimensin hace referencia a los
directivos de los establecimientos. Podemos notar que uno de los primeros
indicadores es el inters y voluntad en aceptar nios con capacidades especiales,
(parece seguir siendo un indicador medio general), seguidamente se muestran las
preguntas en las entrevistas con las que se intenta caracterizar esta dimensin:
desde cundo aceptan nios con capacidades especiales?; Quin tom la
iniciativa? Y Cules fueron las estrategias para llevar a cabo este proyecto?, otra
dimensin puede estar relacionado con los docentes o con las familias de los nios
que concurren a la escuela. Podemos ver que otra de las dimensiones son las
opiniones de los docentes y habla de sensibilizacin y preparacin para la atencin
de los nios con capacidades especiales, dentro del aula. Una vez ms podemos ver
que sensibilizacin parece un indicador algo complejo de medir, pero hay que
insistir que la palabra indicador se usa en forma diferente en diferentes
disciplinas y no va a estar muy claro en cual va a ser su dimensin.
Hay un artculo en la parte final del libro de la materia que se llama Prevalencia y
factores de riesgo del sobrepeso en colegialas de 12 a 19 aos en una regin
semiurbana del Ecuador. En este trabajo el objetivo era determinar la prevalencia
de factores de riesgo de sobrepeso en colegialas de 12 a 19 aos, en una regin
suburbana del Ecuador, e investigar la posible relacin con el IMC, la actividad
fsica que ellas desarrollaban, la ingesta de macronutrientes as como el ndice de
masa corporal estimado de los padres. Qu es lo primero que podemos observar
en el listado de las variables?, el trabajo es reproducible no es reproducible?,
qu tipo de medicin se realiz?, para algunas otras cosas se omitieron detalles,
por ejemplo, el nivel socio econmico se dividi arbitrariamente, pero porque
utilizaron esta forma tan prctica sobre el nivel socioeconmico, porque se
-
sacrifica tanto en una variable, porque no es uno de los objetivos del trabajo, que
si habla sobre prevalencia y factores de riesgo sobre obesidad en las
adolescentes, no dice el nivel socioeconmico en el sobre peso, es decir, no es una
variable fundamental, por lo tanto, es una variable secundaria y por eso uno puede
hacer una medicin bastante sencilla, ahora, si el nivel socioeconmico hubiera sido
una variable principal que estuviera en los objetivos, entonces hubiramos podido
cuestionarlo y decir que deberan haberlo definido de otra manera, adems de que
debera aparecer la definicin que all no aparece, lo que esta es cmo lo miden. A
diferencia de eso lo que tiene que ver con la antropometra si est totalmente
especificado hasta el modelo que usaron para registrar esa variable, que es una
variable que es fundamental para el estudio que se est realizando. Tambin el
clculo de sobrepeso y obesidad aparece bien definido de cmo fue que lo
realizaron y las tablas de referencias que usaron, lo mismo pasa con la distribucin
de la grasa. Ahora vamos a detenernos en el ndice de masa corporal de los padres,
dice que para estimar el ndice de masa corporal de los padres usaron una tabla de
imgenes y se les pidi a las adolescentes participantes que sealaran la imagen
ms parecida a sus padres, este procedimiento fue validado a travs de un estudio
especfico por qu podemos asumir que los investigadores hicieron esto? Porque
es ms fcil obtener la informacin de las adolescentes que estaban en el colegio
que hacer venir a los padres o ir a buscarlos para obtener la medicin, este es otro
de los casos en que estamos dispuestos a perder un poco de precisin en cuanto a
la medicin, pues no va a ser lo mismo que pesarlo y tallarlos para tomarle las
medidas y estimarlo en lugar de hacerlo por el mtodo propuesto, uno obtiene una
variable con menor poder de precisin pero que puede incorporarla en el estudio,
con lo que se puede llevar a la prctica y realizar el procedimiento. Esto es muy
importante en una investigacin de porque se utilizan este tipo de instrumento.
Cuando se utilizan este tipo de instrumentos se debe hacer una validacin cultural
del instrumento, es decir, as como la balanza tenemos que garantizar que mida
siempre lo mismo y que no tengo en sesgo en la medicin, de esa misma manera
tenemos que validar otros instrumentos como cuestionarios e imgenes, tenemos
que garantizar que esto mida lo que dice que mide y es por eso que los autores
detallan el proceso de validacin del instrumento. Lo mismo que la medicin de la
ingesta calrica que se registra a travs del cuestionario de la ingesta de 24 horas,
que se supone que alguien debe haber validado para garantizar que el cuestionario
mide lo que realmente dice que mide.
Ahora vamos a ver otra publicacin que est en la Revista Cubana de Enfermera,
que se refiere a causas de inasistencia a la consulta de patologa de cuello. Se
realiz un estudio descriptivo de corte transversal en el Municipio San Jos de la
Habana en 40 mujeres entre 25 y 65 aos que tenan diagnstico de VPH, NIC I,
-
NIC II y NIC III que es estuvieron inasistentes a la consulta de patologa de
cuello desde el 1 de enero al 31 de diciembre del 2006, se practic un cuestionario
para identificar las distintas causas de la inasistencia y adems se supervisaron los
consultorios donde asisten estas pacientes para constatar acciones llevadas a cabo
en estos consultorios. Se estudiaron las variables edad, nivel de instruccin, tiempo
de inasistencia, conocimientos sobre su enfermedad, acciones de salud precisadas
y principales causas de inasistencia. Se concluy que las mujeres tenan
conocimiento de su enfermedad y su pronstico, as como tambin que las acciones.
Dentro de las causas se encontraron las vinculadas con el funcionamiento de la
consulta y con el diagnostico. Vamos a enfocarnos en los mtodos: dice que se les
aplico un instrumento basndose en principios ticos y polticos. Veremos la
variable edad, tomndose como el ltimo ao cumplido al entrevistar a la mujer, es
decir no dice la edad de la persona sino el momento en el cual se est tomando la
edad. En estos indicadores aparecen todos multiplicados por 100, lo que hicieron
fue calcular los valores y sacar los porcentajes, pero esto no es lo correspondiente
al concepto de indicador que hemos venido manejando como lo explicado por Pineda
y Alvarado, como hemos visto, es una forma diferente de presentar el indicador
que no parece muy correcta pues de la forma como aparece porcentaje podra
aparecer media o mediana, pues el indicador segn Pineda y Alvarado, es la
variable emprica que vamos a medir. En el caso de nivel de escolaridad aparece el
ltimo nivel vencido y repiten esto de los por 100, se entiende que se refiere la
cantidad de personas segn los niveles de escolaridad y el porcentaje de cada uno
de ellos. Sobre el nivel de escolaridad tienen que declarar si y tienen el nivel
aprobado o se encuentran cursndolo, esto es distinto a los aos de escolaridad
que tengan cursado la persona. En relacin con los das de inasistencia se refiere al
ltimo da de asistencia a la consulta de patologa de cuello de nuevo por 100.
Cuando revisamos el cuestionario, vemos que en lo referente a la edad lo deja
abierto y las mujeres colocan su edad y al igual que el nivel de instruccin puede
ser registrado de forma equvoca pues no hay una persona que oriente porque es un
cuestionario auto-administrado annimo, entonces se pueden producir sesgos en los
resultados. De esta manera tendramos que ponerle indique el ltimo nivel
aprobado. Debemos fijarnos que en la definicin operativa de la variable, dice edad
y nivel de instruccin y lo describen como ya lo vimos, pero en la encuesta aparece
para ser registrado de manera diferente, esto es un error y debe tenerse en
cuenta sobre todo si trabajamos con datos secundarios. Si estoy dando mi tabla de
operacionalizacin de las variables tengo que registrar como voy a medir esa
variable, pero en la encuesta colocaron edad seguido de dos puntos (:) por lo cual
van a tener la edad en aos cumplidos que no es lo mismo a como ellos dicen que van
a registrar la edad, ni tampoco se coloca el procesamiento de esos datos o como
-
voy a agrupar esos datos porque eso es otra etapa de la investigacin. Lo otro es
que en el cuestionario no tiene el apartado donde registrar el ltimo da en que la
paciente asisti a la consulta, lo que significa que este dato sale de otra fuente, lo
cual quiere decir que en materiales y mtodos deben explicitar cual es la fuente de
donde sale esta informacin, que seguramente fue a partir de la ficha del
consultorio, esto debera estar indicado en el apartado de materiales y mtodos. Si
nosotros vamos a utilizar una fuente secundaria como una matriz de datos ya esa
matriz de datos tiene limitada esa operacionalizacin de esa variable, solo debe
declararse la decisin operativa de cmo se midi esa variable, nunca hacer
nosotros esa definicin porque no tenemos que mezclar lo que son definiciones mas
para poder realizar el agrupamiento de la informacin con la definicin operativa
de quien decidi esa definicin por la persona que hizo el relevamiento de esos
datos. Distinto es cuando yo soy el que estoy produciendo esos datos, es una
fuente primaria, y all yo si voy a decidir la forma de como yo voy a medir esa
variable, en la otra opcin voy a tener que lidiar con otras limitaciones atribuidas a
esas fuentes secundarias y acceder a las definiciones operativas para tratar de
entender con qu material uno se va a encontrar.
Bueno una vez que hemos llegado a identificar las variables empricas o estas que
son viables para hacer la medicin u observacin, tenemos que comenzar con el
proceso mismo de medicin de esas variables. La medicin es la clasificacin de
casos o situaciones y sus propiedades de acuerdo a ciertas reglas lgicas,
asignacin de nmeros a las observaciones de modo que los nmeros sean
susceptibles de anlisis por medio de ciertas operaciones de acuerdo a ciertas
reglas. En resumen, se refiere a la cuantificacin o a la cualificacin de una
variable en estudio y las variables se clasifican segn la capacidad, el nivel o la
fortaleza o la escala en que fueron medidas esas variables. Y ac debe hacerse una
observacin que parece obvia, y es el hecho de que sea un estudio cuantitativo no
implica que no contemple variables cualitativas, porque una cosa es que el abordaje
sea cuantitativo y la variable sea cualitativa o cuantitativa, es decir, yo puedo
hacer un abordaje cuantitativo de informacin o de variables que son de tipo
cualitativas que explican una cualidad o caracterstica del objeto o del sujeto
sobre el cual estoy realizando la investigacin, por ejemplo, si hablamos del nivel de
instruccin es una cualidad o si estamos hablando del lugar de procedencia del
paciente de un determinado servicio de salud, lo que haremos luego es resumir esa
variable cualitativa de acuerdo a indicadores de naturaleza cuantitativa, por
ejemplo podemos decir que un determinado porcentaje de personas tienen un lugar
determinado de procedencia o diremos que un determinado porcentaje de personas
tienen un nivel inferior al nivel secundario completo .
-
Ahora vamos a explicar las propiedades de las escalas de medicin, estas
propiedades tienen naturaleza jerrquica en el sentido de que las primeras estn
contenidas en la escala que sigue en las siguientes y estas estn contenidas en las
otras. La primera, la mas elemental es la que se conoce como Escala Nominal y lo
que hace es asignarle un nombre un rotulo diferente que puede asumir la variable.
De esta manera si nuevamente estamos hablando del lugar de procedencia de esas
personas, podemos decir que unas personas provienen del barrio A y otras personas
provienen del barrio B, yo puedo ponerle una etiqueta un nombre diferente que
pueda asumir esa variable y lo que yo voy a poder hacer son operaciones de
comparacin entre esos valores. Entonces si dos personas tienen la misma etiqueta
del barrio A entonces vienen del mismo lugar, y si tengo una persona con la
etiqueta de barrio A y otra de barrio B entonces esas personas vienen de lugares
diferentes, entonces all solamente puedo hacer operaciones de comparacin, de
igualdad y de diferencia entre los valores de esa escala de medicin. La escala
siguiente en nivel de complejidad es la Escala Ordinal como aquella que adems de
hacer operaciones de comparacin, igualdad o diferencia me permite poner los
valores de la variable en un determinado orden, por ejemplo no hay diferencia
entre el barrio A y el barrio B pero si lo hay en el nivel de instruccin entre el que
termino la primaria y el que culmin la secundaria porque tiene un nivel de
instruccin mayor y este a su vez tiene un nivel menor que el que hizo el nivel
universitario, entonces la caracterstica de la escala ordinal es hacer un
ordenamiento y de all su nombre, el de poner un orden entre los valores de la
variable. La escala siguiente es aquella que adems de permitirme poner los valores
en orden permite cuantificar la magnitud entre la diferencia de dos valores
parecidos, por ejemplo si yo tuviera la cantidad de aos de escolarizacin, puedo
decir que el que tiene menos de 2 aos y tiene menos que 4 y este tiene 4 pero
menos que 6, entonces el que tiene entre 2 y cuatro tiene dos aos de
escolarizacin bsica menos que el que est entre el que tiene 4 y el que tiene
menos de 6, es decir podramos hacer operaciones matemticas de diferencias
entre los distintos valores de la variable, puedo calcular los distintos grados de
magnitud de diferencia entre los distintos valores de la Escala de Intervalos, es la
escala de intervalos. Ahora que le falta a esta escala para ser una escala en la cual
podamos hacer todas las operaciones con los valores de la variable, lo que falta es
hacer el clculo de operacin de los cocientes entre los valores de la variable, es
decir puedo medir la diferencia entre dos valores pero no puedo establecer
relaciones de cociente, de proporcin o de razn entre los 2 valores de la variable.
La escala que permite realizar operaciones de cocientes se le denomina Escala de
Razn, la diferencia es que la escala de intervalos el CERO es un cero arbitrario y
no indica la ausencia de caracterstica y la escala de razn el cero indica la
-
ausencia de la caracterstica. Un ejemplo, es la temperatura y otra es la altura con
respecto de un determinado punto de referencia. Supngase que un da vamos a
hacer una observacin a un lago para medir el nivel del agua, y hay 2 postes que
salen del agua, entonces si yo mido la altura del nivel del agua respecto de los
postes hay diferencias entre las alturas, cual es la diferencias entre los dos, es la
distancia entre los diferentes niveles del agua, supongamos que voy otro da y el
nivel del agua es diferente, ahora la longitud del nivel del agua vara, la relacin de
cociente entre los dos valores deja de ser importante cuando el punto de
referencia es arbitrario. Entonces la escala de razn es la escala ms potente es la
que contempla y tienen sentido todas las operaciones matemticas entre los
valores de la variable. Porque tienen importancia todas estas escalas de medicin,
porque hay distintos mtodos estadsticos cuya potencia depende de cmo hemos
realizado esa escala de medicin, fjense que no es lo mismo realizar una medicin
del peso en kilogramos que realizar la medicin de peso de ms o menos de tanto, si
yo lo convert en ms y menos tengo solamente 2 categoras, y en su lugar lo tengo
en kilogramo tengo una escala de razn para poder realizar con ella todas las
operaciones que estamos planteando con el estadstico.
La clasificacin general de las variables puede hacerse en Variables Cuantitativas y
Variables Cualitativas y dentro de las variables cuantitativas, se diferencian dos
tipos de variables: las que corresponden a las variables discretas y las que
corresponden a las variables continuas. Por ejemplo, si yo mido la cantidad de hijos
que ha tenido una mujer en un determinado momento de su vida, esa variable es
cuantitativa, es una cantidad, pero va a tener solamente valores enteros, donde
puede estar incluido el valor 0, y puede tener 1 hijo, 2 hijos o 3 hijos, no es posible
obtener un valor entre los 2 nmeros enteros cualesquiera, a esto se le denomina
valores discretos o discontinuos, lo ms frecuente en estadsticas es denominarlas
Variables cuantitativas discretas. Y en el caso que la variable pueda asumir el valor
entre dos nmeros enteros cualquiera se le denomina Variable Cuantitativa
Continua, por ejemplo el peso, puedo medir kilos con gramos es decir con decimales,
y si tengo un instrumento de medicin muy preciso puedo medir con la cantidad de
decimales que quiera, por lo cual es una variable cuantitativa continua. Al igual que
con la edad pues tericamente podemos medir la edad con los aos cumplidos con
los das con los meses con los das y otros por lo cual se considera una variable
cuantitativa continua.
Agrupar en intervalo no me transforma en intervalo una variable de intervalo, pues
es realidad lo que yo tendra son cuatro categoras y por lo tanto lo que yo tendra
es una variable ordinal, porque los que estn en cada intervalo tienen menos entre
s, lo que yo estara en realidad midiendo es una variable ordinal, cuatro grupos
-
cuatro categoras que seran los que tienen menor edad, con los cuales voy a hacer
relaciones de orden pero no voy a hacer suma o procedimientos especficos con
esos valores, porque le he puesto 4 rtulos a la edad y saber ordenar esos rtulos.
Si digo ms de 25 o menos de 25 no voy a poder hacer entre esos dos grupos
operaciones no es una variable continua. Las variables nominales se dividen en:
Dicotmicas si tienen dos valores y cuando tienen ms de 2 valores Politmicas. Por
ejemplo el que fuma s o no, es una variable nominal dicotmica, y politmicas como
en este caso del nivel de instruccin tengo varias categoras. La escala es ordinal
cuando puedo establecer distintos rdenes segn el valor de la variable. El
problema es que si uno se queda con la escala ms baja est perdindose la
potencialidad de la escala ms alta, puedo hacer ms cosas si tengo una escala ms
potente que la escala nominal, as el tratamiento de una escala ordinal me permite
hacer mayores cosas que el tratamiento de una escala nominal.
Otro ejemplo, consideraciones clnicas epidemiolgicas de la estomatitis en la
consulta de pacientes con prtesis de la consulta estomatolgica, se realiz un
estudio descriptivo observacional transversal con el fin de determinar los casos de
estomatitis prxima. Dice: operacionalizacin de las variables, nos dan nuevamente
una descripcin de la edad y dice segn los aos cumplidos, en el caso del sexo la
definicin dice segn sexo biolgico, la otra variable es la gravedad clnica de la
estomatitis (1-2-3) y aqu si nos da un criterio de una variable de tipo ordinal. En la
descripcin colocan segn el nmero de veces que el paciente lava la prtesis: una a
dos veces, dos a tres veces, cuatro veces cada vez que ingiere alimento, que opinan
de esta escala de medicin, tienen un problema porque la primera contiene a la
segunda y si solo ingiere una vez alimento tambin contiene a una vez, entonces las
propiedades de la escala de medicin son: Exhaustividad y Exclusin, es decir, si a
una persona no la puedo asignar en un valor o si la puedo asignar a ms de un valor,
tengo un problema con la escala de medicin. La propiedad de exhaustividad, es el
hecho de que a todo individuo yo lo pueda poner en alguno de los valores de la
variable, es decir una escala tiene que ser exhaustiva, sino me van a quedar
individuos en los cuales no s qu valor de la variable tiene, y la propiedad de
exclusin se refiere a que los valores de la variable tiene que ser mutuamente, es
decir yo lo puedo ubicar en algn lado pero solo en un lado, no puede estar presente
en ms de uno de los valores de la variable.
HERRAMIENTAS DE ANLISIS (sbado 8/06/2013). Adrin Santoro
Tema: Anlisis univariado: estadstica descriptiva.
-
Vamos a hablar de estadstica descriptiva, es la estadstica que describe, analiza, resume
un conjunto de datos utilizando mtodos numricos y grficos que resumen y presentan
informacin contenidos en ellos. Los mtodos son herramientas analticas que junto a los
grficos nos permiten ir resumindolo ya sea grficamente o a travs de un indicador o
algn estadstico.
La estadstica inferencial es aquella que apoyndose en el clculo de probabilidades y a
partir de los datos muestrales efecta estimaciones. Es una rama de la estadstica, en la
que se trata de ver de qu manera con cierta probabilidad puedo inferir en una poblacin
los datos que surgen de una muestra. Siempre que uno tiene un tema de investigacin se
pide una poblacin de estudio, que ms all del abordaje que uno haga, que para el caso
que nos ocupa est el anlisis cuantitativo, donde la unidad censal o la unidad de anlisis,
en general va a tomar una porcin de esa poblacin que se le llama muestra. Entonces la
estadstica inferencial, se va a ocupar de estudios donde se toman las muestras de una
poblacin, con la finalidad de calcular la probabilidad de equivocarse o no y hacer una
inferencia de esta parte de la poblacin a toda la poblacin.
Nosotros cuando trabajamos en un estudio cuantitativo en general lo que tenemos es una
tabla de datos, esto tiene un montn de nombres por cual tambin se le conoce como
Matriz de Datos o Tabla de Datos, donde est la presentacin de las caractersticas y
atributos que se relevaron de cada una de las unidades, donde una fila contiene cada una
de las unidades observadas y la columna que representan las variables, es decir, las
caractersticas o atributos que se relevaron dcada una de las unidades.
Se dice que la matriz o tabla de datos tiene una estructura tripartita, pues consta de tres
partes: las filas que representan cada una de las unidades observadas, por el otro lado
tenemos las columnas que son las variables. Las variables son las caractersticas que de
individuo a individuo o de unidad a unidad pueden ir variando, que pueden ser
cuantitativas o cualitativas, si son cuantitativas continuas o discretas, si son cualitativas
tener diferentes niveles de medicin. El tercer elemento es el valor que asume la variable
en cada unidad de observacin, es decir la celda. Esta conjuncin entre filas y columnas o
una unidad de anlisis y una variable existe la categora o valor de esa variable que se
conoce como el dato.
Tenemos que empezar a pensar en una herramienta para abordar un conjunto de datos,
que nos permita hacer algn resumen o tener una idea ms concreta de cmo es esta
distribucin o de cmo son las distribuciones de estas variables. De esto se ocupa
bsicamente la estadstica descriptiva para luego poder analizarlo.
La primera herramienta es la frecuencia de la variable. Simplemente es presentar los
valores de una variable y la frecuencia como aparece cada uno de ellos. Tenemos la
frecuencia absoluta y se refiere a cuantas veces se observa el valor de una variable. La
variable tiene que un conjunto de categoras: tiene que ser excluyente y ser exhaustiva.
Qu significa que sea excluyente? Que cada caso en funcin de la variable pueda ser
clasificado en una sola categora y solo en una. Y exhaustiva se refiere a que cada caso sea
clasificable en una categora.
-
La distribucin de frecuencia es una forma de tratar los datos con la cual podemos resumir
toda esta cantidad de datos y tener una idea que no nos va a permitir hacer ningn anlisis
pero nos va permitir hacer la descripcin de los datos de cada una de las variables.
Hay varias maneras de calcular la frecuencia. La primera es la frecuencia absoluta tiene
que ver con la cantidad de observaciones. Despus tenemos la frecuencia relativa o
relativa porcentual, depende como se exprese, nos dice que proporcin o porcentaje
representa la cantidad de observaciones. Es bastante sencillo, lo que se tata es ir
agrupando los recuentos para saber en qu medida se van mostrando. Que tan frecuente
es cada uno, puede estar presentado en valores absolutos o valores relativos es decir en
porcentajes, los porcentajes nos van a permitir compararlos o relativizarlos, lo que no nos
permiten los nmeros absolutos. La lectura es mucho ms fcil refirindonos al cien por
ciento.
El tener en cuenta el nivel de medicin de una variable nos va a dar la informacin sobre
que herramienta voy a utilizar para su anlisis. Siempre que sea una variable cualitativa del
tipo nominal tendremos que calcular la frecuencia absoluta y la frecuencia relativa, no
mucho ms que eso.
El estadstico con que se puede analizar una variable cuantitativa nominal es la moda o el
modo. Hay variables que pueden ser unimodales, bimodales o polimodales. Las variables
dicotmicas solo son unimodales. No aporta mucha informacin pero es el nico que
tenemos para describir esa variable. Las categoras de estas variables no pueden
clasificarse segn un orden, a diferencias de otras como el nivel de instruccin que se
pueden clasificar segn su orden jerrquico. Tampoco las variables nominales unimodales
pueden describirse utilizando alguna operacin aritmtica. El nico estadstico es la moda
o el modo. Hay 2 maneras ms de presentar la frecuencia: la frecuencia relativa porcentual
y la frecuencia relativa acumulada. Solo puede calcularse para variables que tienen
categoras ordinales, es decir, que pueden ordenarse por categoras de menor a mayor,
como por ejemplo, el nivel de instruccin, es decir que sean cualitativas de mayor a
menor, para calcular que distancia hay entre un nivel mayor y un nivel menor.
Vamos a tomar una variable la cantidad de hijos que tiene una mujer, tenemos la
frecuencia absoluta que como habamos dicho antes es el conteo de la aparicin de cada
una de estas categoras, la relativa y la porcentual es el porcentaje que representan. Y lo
que vamos a sumar ahora es la frecuencia relativa porcentual y la frecuencia relativa
acumulada. La frecuencia relativa acumulada es la frecuencia de cada una de las categoras
sumadas a las anteriores. Y esto tambin le vamos a transformar en porcentaje y nos
queda la frecuencia relativa acumulada lo que obviamente va a ser 100 por ciento o uno,
en la ltima categora, lo cual quiere decir, que categora ms alta acumula a todos los
casos.
Pensando esto como porcentaje la utilidad que tiene esta herramienta es poder hacer
lectura de este tipo: el 75 por ciento de los encuestados tiene 3 hijos o menos o que el
25% de la muestra tiene ms de 3 hijos. Lo que nos permite ordenar el conjunto de datos
en funcin de su categora de mayor o menor, de aqu podemos ir teniendo una idea de la
condicin de la distribucin, es decir, hasta qu nivel llega la mitad de la muestra. Si
tomamos la mitad de la muestra, de este ejemplo, hasta que cantidad de hijos llegamos,
-
vamos a llegar hasta 2 (55% tiene dos hijos o menos). Si tomamos hasta 4 hijos o menos ya
tenemos casi toda la muestra, pero si tomamos 5 hijos es un fenmeno poco frecuente o
ms tenemos solo el 10% o menos. Hasta aqu podemos ver que con este tipo de lectura
vamos a poder avanzar con la distribucin, porque podemos ver la categora ms
frecuente que para este caso es un hijo, tambin lo que podemos ir viendo es como
acumula, por ejemplo que ms de 3 cuartas partes de la muestra tiene 4 hijos o menos. Lo
que no sirve es para ver estn concentrados los casos en funcin de las categoras.
Hasta aqu estamos en la distribucin de frecuencias de variables cualitativas nominal que
es la que tiene menor capacidad de medicin, pues solo podemos calculas frecuencia
absoluta y relativa y la categora ms frecuente que se le dice moda o modo. La variable
cualitativa ordinal que adems de clasificarla permite ordenar los casos de mayor o menor
en funcin de una variable y all vimos que podemos agregar la frecuencia absoluta y
relativa acumulada, que nos permita ver cmo iban acumulando los valores ordenados a
la moda.
Ahora vamos a ver los estadsticos de tendencia central que van a responder esta
pregunta: alrededor de que valor se agrupan las observaciones? Sabemos que una
muestra o en una poblacin, puede tener una distribucin ms o menos dispersa. Lo que
nos va a decir, ms a all de que la muestra sea ms o menos dispersa, lo que nos va a
decir es alrededor de que valor se agrupa. Si es una medida de dispersin si es el
promedio, o la medida que utilicemos, se compone de valores muy desiguales o ms
parecidos.
La media es la medida de tendencia central ms utilizada, la ms conocida. Es el promedio
aritmtico, es la sumatoria de la variable dividida en la cantidad de casos. No tiene mayor
complejidad que eso. La media es muy sensible a los valores sensibles de la variable. Si
tenemos unos valores que se van alejando de los valores promedios la media se va
corriendo para all. Esto nos dice que es indicador no es el mejor si esta variable tiene
valores extremos. Esto no va a sesgar este estadstico porque va a estar influenciado por
este valor atpico, por lo cual no va a ser una medida til para describir esa variable. La x
con un sombrerito significa promedio, en la formula significa que es la sumatoria desde el
primer caso hasta el ltimo caso, y suma la variable X, que podra ser la variable hijos,
entonces lo que quiere decir que en la sumatoria de la variable hijos, dividido entre la
cantidad de casos. En conclusin ms all que la media se utiliza cuando uno tiene una
cantidad de datos numricos no usarla indiscriminadamente pues hay que tomar en
cuenta que si es muy heterognea esa distribucin o est sesgada por un valor alto o bajo
esta medida no va a ser tan buena. La mediana, si se considera una variable discreta X
cuyas observaciones en una tabla estadstica han sido ordenadas de menor a mayor.
Llamamos mediana al primer valor de la variable que deja por debajo de si al valor al 50%
de las observaciones. Se puede calcular en variables cuyo nivel de mediciones permite
ordenar las categoras.
-
Segunda parte de Herramientas de Anlisis II (Dr. de Santoro)
Vamos a recapitular un poco, habamos dicho que estbamos en la estadstica descriptiva,
de all pasamos a la distribucin de valores de frecuencia, estamos en el rea de la
estadstica que no se preocupa por describir a la poblacin sino a un conjunto de datos,
este conjunto de datos en funcin de la variable se puede construir una determinada
distribucin de la frecuencia y construir una medidas que den cuenta de los valores tpicos
de la distribucin. Por eso vamos a describir la tendencia central donde estn agrupados
los datos. La media para datos que son ms simtricos y la mediana para observaciones
que son ms asimtricos, para que aquellos valores que son ms asimtricos no nos
sesguen la tendencia central.
Ahora vamos a pasar a la variabilidad de esta distribucin, vamos a calcular estadsticos
que nos cuantifiquen si esa distribucin es muy ancha o muy angosta, si es ms
concentrada o es ms heterognea o est formada por valores ms distantes, es decir de
qu manera se agrupan alrededor de esta medida de tendencia central, de la media o de la
mediana.
Una medida de dispersin es como quedan agrupados los datos alrededor de la medida de
centralizacin que uno est usando. No hay medidas de dispersin para variables
cualitativas nominales mucho menos para ordinales. Estamos en el campo de las variables
cuantitativas. Ahora quiero ver si esa media que yo calcule es el resultado de promediar
valores parecidos o no tan parecidos o son ms o menos parecidos. Estos estadsticos de
dispersin son la varianza y el desvo estndar.
La varianza a lo que remite es hacer un resumen de dispersin con respecto de la media,
nos va a cuantificar la varianza si todos esos valores que nosotros sumamos para obtener
la media son parecidos o no a la media. Imaginemos que tenemos una distribucin que va
de 0 a 100 con promedio de 50, el caso que este promedio sea el resultado de estos dos la
varianza va a ser baja, es en promedio cuanto se alejan estos puntos de la media o del
promedio, cuanto ms se alejen del promedio va a ser ms baja y cuanto ms se alejen va
a ser ms alta. Esto nos dice que si es alta este promedio est compuesto de valores muy
distintos. La varianza y el desvo estndar lo que van a hacer es promediar esas diferencias.
La varianza es al cuadrado para que no me den nmeros negativos, como mide distancias
que pueden tener distintos valores tienen que estar al cuadrado para que estn distancias
no se compensen y llegue a 0. La varianza no tiene unidad de medida porque es una
sumatoria de distancias al cuadrado, por eso se calcula el desvo estndar que es la raz,
luego se anula con la raz el cuadrado. La varianza no tiene demasiado poder explicativo
por que no es comparable, es un insumo para el desvo estndar y el coeficiente de
variacin, que si son indicadores de la variabilidad.
El desvo estndar es una expresin de la varianza, es la raz cuadrada de la varianza,
permite ganar en capacidad de interpretacin. El desvo estndar sobre la media nos da el
coeficiente de variacin, que se expresa por 100 y se refiere a cuanto se presenta la
varianza en la media, es el indicador ms fcil de interpretar porque si tenemos por
ejemplo un coeficiente de variacin del 30 % y un coeficiente de variacin del 10 %, en el
primer caso va a haber ms variabilidad en la muestra.
-
El rango es sensible a valores extremos, pero es una herramienta til de medir el ancho de
distribucin medir el rango.
El rango intercuartil, es decir la amplitud que hay entre el tercer cuartil y el primero, es
decir entre el 75% y el 25%, el 50% que est en el medio nos va a permitir ver si la
distribucin es ms o menos homognea, y con eso lo que nos va a permitir es
deshacernos de las 2 puntas, es decir, el 25 % ms alto y el 25% ms bajo, donde estn los
extremos.
La mediana est en la mitad de la distribucin es lo mismo que el segundo cuartil, este
rango intercuartil del que hablamos recin es el rango de la distribucin que est entre el
primer cuartil y el tercer cuartil. El primer cuartil corresponde al 25% por lo tanto coincide
con el percentil 25, la mediana coincide con el 50 y el tercer cuartil con e 75, lo que nos
permite marcar otros puntos de la distribucin. Esto nos da una idea de cuan cerca estn
las observaciones que componen el promedio. El rango abarca toda la distribucin desde
donde termina hasta donde comienza. El rango nos puede advertir sobre la presencia de
un extremo.
El clculo de la varianza y el desvo estndar en Excel, es muy fcil porque de lo que se
trata es de que a cada valor de la variable es restarle la media y elevarlo al cuadrado y eso
dividirlo por N.
Si la media es 50 aos con un desvo estndar de 4, son 4 aos, esto quiere decir que en
promedio los valores se diferencian de la media en 4 aos. Lo que tiene adems el desvo
estndar es que es comparable porque tiene una unidad de medida.
Las formas de distribucin, es una manera de analizar los datos. Si esa distribucin esta
sesgada para un lado o esta sesgada para otro no es lo mismo, siempre hay que hacer un
anlisis grafico de la distribucin.
Un histograma es una manera til de graficar la distribucin, que es un grfico donde las
columnas representan un agrupamiento en clase de la variable cuantitativa. En las curvas
asimtricas hay mayor concentracin en los valores bajos, aunque hay valores atpicos o
extremos hacia la derecha, el lado hacia el que se alarga es lo que caracteriza el sesgo por
eso dice que tiene sesgo a la derecha, y tiene los valores concentrados a la izquierda se
llama asimetra positiva. La mediana se corre a la derecha de la media.