Estadística en La Experimentación y Evaluación

169
CENTRO DE INVESTIGACI ´ ON Y DE ESTUDIOS AVANZADOS DEL INSTITUTO POLIT ´ ECNICO NACIONAL DEPARTAMENTO DE MATEM ´ ATICA EDUCATIVA ESTAD ´ ISTICA EN LA EXPERIMENTACI ´ ON Y EVALUACI ´ ON EDUCATIVAS J. A. RiestraVel´azquez PROVISIONAL: Segunda edici´ on 1985. Versi´ on preliminar. Departamento de Matem´ atica Educativa, CINVESTAV del IPN. Revisi´ on Acad´ emica: C. Armando Cuevas V. y Gonzalo Zubieta B. Impreso y hecho en M´ exico. Derechos reservados.

description

Obra del IPN - CINVESTAV.Estadística en La Experimentación y Evaluación, se trata de un manual frecuentemente usado en las carreras de ingenieria, del ipn, pero tambien de muchas otras escuelas que requieran un uso eficaz de la estaqdistica.

Transcript of Estadística en La Experimentación y Evaluación

  • CENTRO DE INVESTIGACION Y DE ESTUDIOS AVANZADOSDEL INSTITUTO POLITECNICO NACIONAL

    DEPARTAMENTO DE MATEMATICA EDUCATIVA

    ESTADISTICA EN LA EXPERIMENTACION

    Y EVALUACION EDUCATIVAS

    J. A. Riestra Velazquez

    PROVISIONAL:Segunda edicion 1985. Version preliminar.Departamento de Matematica Educativa, CINVESTAV del IPN.Revision Academica: C. Armando Cuevas V. y Gonzalo Zubieta B.Impreso y hecho en Mexico.Derechos reservados.

  • INDICE

    ESTADISTICA DESCRIPTIVA E INFERENCIAL

    1. Medicion . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    2. Agrupacion de datos. Distribuciones de frecuencia . . . . . . . 9

    Una tecnica para la agrupacion de datos en clasesde igual tamano (caso continuo) . . . . . . . . . . . . . 15

    Complemento a los captulos 1 y 2 . . . . . . . . . . . . . . . . 21

    3. Medidas de tendencia central . . . . . . . . . . . . . . . . . 35

    4. Medidas de dispersion . . . . . . . . . . . . . . . . . . . . 51

    5. Nociones de probabilidad. Distribuciones teoricas . . . . . . . . 63

    6. Distribuciones Continuas. Distribucion Normal . . . . . . . . . 79

    7. Distribucion Normal . . . . . . . . . . . . . . . . . . . . . 93

    Distribuciones normales en general . . . . . . . . . . . 100

    Distribucion normal acumulada . . . . . . . . . . . . . 105

    Ajuste de distribuciones normalesa distribuciones empricas . . . . . . . . . . . . . . . 109

    8. Una Escala de Intervalo para Reactivos . . . . . . . . . . . 115

    9. Independencia y Dependencia de Variables. . . . . . . . . . . 121

    Correlacion Lineal . . . . . . . . . . . . . . . . . . 130

    Obtencion del Coeficiente de Correlacion. Un puntode vista vectorial . . . . . . . . . . . . . . . . . . . 137

    Algunos resultados teoricos . . . . . . . . . . . . . . . 140

    Ejercicios y problemas . . . . . . . . . . . . . . . . . 151

    Concepto de confiabilidad . . . . . . . . . . . . . . . 153

    Teora clasica de la confiabilidad en la medicion . . . . . . 156

    10. Presentacion esquematica de la experimentacion . . . . . . . 161

  • Medicion

    CAPITULO 1: MEDICION.

    En la evaluacion, la medicion juega un papel importante. Conviene senalardos etapas en el proceso de la medicion. La primera se refiere al disenoy la elaboracion de los aparatos de medicion. La segunda, tiene que vercon la transformacion de los resultados crudos, que arrojan los aparatos demedicion, en informacion util (la cual pueda, a su vez, servir de base parainterpretacion, la cual la convertira en juicios y conclusiones valorativos).A este respecto, posteriormente seran introducidos lenguaje, conceptos ytecnicas afines o propios de la estadstica matematica, los cuales resultaranutiles en ambas etapas.

    Para fijar ideas, cuando se habla de aparatos de medicion, se esta refiriendousualmente, aunque no necesariamente, a pruebas o examenes (tests). Losresultados crudos, de los que se hablo, seran entonces los puntajes directos(no procesados) que se obtienen en la prueba.

    Puesto que el manejo o procesamiento (en el cual interviene la Estadstica)de los resultados o puntajes crudos, depende de la escala con la cual se realizola medicion, este tema sera expuesto en primer termino.

    Cuando se habla de medicion, generalmente se piensa en acciones como lade encontrar la longitud de un objeto valiendose de una cinta metrica. Eltermino medicion se emplea muy comunmente para designar la estimacion deuna dimension o una extension. Esta es, en realidad, una idea muy limitadadel termino; se miden asimismo pesos, densidades, etc. Sin embargo, en todocaso, es casi seguro que el temino solo sugiera la medicion como es concebidaen las ciencias fsicas, a saber, la asignacion de numeros a observaciones.Esta ultima concepcion es seguramente tan dominante que, a menudo, en lasCiencias Sociales se procede copiando a este modelo, sugerido por la Fsica,en forma poco crtica al medir variables sociales.

    Conviene aclarar, sin embargo, que puede existir una diferencia importanteen el sentido en el cual los numeros asignados representen verdaderamente alas observaciones, en el caso de variables fsicas por un lado y de variablessociales, por el otro. Cuando se miden variables fsicas, los numeros obteni-dos son significativos en el sentido de que es posible al manipularlos (p. ej.aritmeticamente) obtener nueva informacion. Mas precisamente, la adecua-cion de los numeros a las cantidades fsicas que miden, es tan perfecta que,por ejemplo, la estructura aritmetica de los numeros tiene su correspondienteen las variables observadas; as, si un objeto pesa 1kg. y otro 2kg., los dosjuntos pesaran seguramente 3kg. (puesto que 3 = 1 + 2). Puede decirse, en

    1

  • Medicion

    este sentido, que las variables fsicas tienen una naturaleza verdaderamentenumerica. Este no es ciertamente el caso para muchas variables sociales.Para poner un ejemplo trivial, pensemos en la medicion del estado civil deciertos individuos. Aqu la medicion consiste, en realidad, en clasificar a losindividuos segun su estado civil: soltero, casado, viudo, divorciado, etc. Unopodra, por supuesto, asignar claves numericas a las clasificaciones; digamos1 a soltero, 2 a casado, 3 a viudo, etc. Del hecho de que 1 < 2 < 3,no se sigue, claro esta, que soltero sea menor o inferior a casado, que esteultimo sea menor o inferior a viudo, ni nada del estilo. En otras palabras,estas claves numericas para las clasificaciones no hacen a la variable socialestado civil, una variable numerica.

    En vez de hablar de variables verdaderamente numericas o aparentementenumericas, se suele hablar, mas tecnicamente, del nivel alcanzado en la me-dicion o del nivel alcanzado en la escala de medicion. Dicho nivel se especificaclasificando el tipo de escala de medicion; clasificacion que ahora veremos.

    LA ESCALA NOMINAL. Representa la medicion en su nivel mas bajo. Nuestramedicion esta al nivel de una escala nominal, cuando sencillamente se clasifi-can objetos, sujetos o sus atributos, empleando para ello smbolos o numeros,los cuales juegan simplemente el papel de nombres. La lista de tales nombresconstituye la llamada escala nominal.

    Cuando una persona, quien realiza una encuesta, clasifica a los maestrosentrevistados en relacion a su actitud para con sus alumnos como hostil,amistoso o indiferente, esta empleando simplemente un nombre paradesignar la categora o clase, a la cual, el maestro entrevistado, pertenece;esta empleando por tanto una escala nominal. Sera en realidad difcil, porejemplo, establecer una relacion de orden en tales clasificaciones: Es mejorhostil que indiferente, o al contrario? Seguramente la respuesta depende delcaso particular y de sus circustancias especiales.

    En el ejemplo precedente, pudieron igualmente haberse empleado smboloscomo H, I, A en vez de hostil, indiferente y amistoso sin alteraresencialmente a la escala. Mas precisamente, una escala nominal es unicaexcepto por transformaciones biunvocas.

    Desde el punto de vista matematico, la escala nominal simplemente crea unaparticion en clases de la coleccion de personas u objetos clasificados o medi-dos. Dentro de cada clase (o sea la coleccion de objetos o sujetos que caenen determinada clasificacion), los individuos u objetos se consideran equiva-lentes. En el ejemplo visto, tenemos la clase de los maestros hostiles, laclase de los indiferentes, etc. Aunque en una misma clase, digamos la de

    2

  • Medicion

    los hostiles, existan diferencias entre dos maestros, la escala los consideraequivalentes. Esto tiene mucho sentido si uno desea estudiar en forma siste-matica o estadstica las relaciones personales entre maestros y alumnos. Si seva al extremo de considerar a cada maestro como un caso unico, el estudiose vuelve probablemente imposible o, en todo caso, infructuoso. Aunque laescala nominal se utiliza en condiciones pobres de medicion, puede resultarverdaderamente util.

    Consecuencia de la naturaleza particular de una escala nominal, es que solo esadmisible el empleo, para las variables por ella medidas, de estadsticos (queveremos mas adelante) como frecuencia, moda, etc.; ya que estos ultimos nose alteran por los nombres o smbolos empleados en la escala, siempre quesean intercambiados de modo biunvoco.

    LA ESCALA ORDINAL. Una escala ordinal es una escala clasificatoria comola nominal, pero en ella se tienen ademas relaciones (jerarquicas) entre unacategora y otra del estilo: superior a, preferido a, mejor que, etc., las cuales,se denotan con el smbolo > (el cual significa literalmente mayor que,pero se emplea segun el contexto como superior a, preferido a, etc.).

    Un ejemplo de este tipo de escalas es el sistema de rangos o grados en lamilicia: teniente > sargento > cabo.

    Puesto que cualquier transformacion que preserve el orden no cambia la in-formacion contenida en una escala ordinal, estas son unicas excepto por talestransformaciones (llamadas monotonas). As

    una escala ordinal dada por: 1, 3, 5, 7

    puede ser sustituida por: 0, 1, 7, 11

    (se entiende que 1 se cambia por 0, 3 por 1, etc.).

    Como medida descriptiva estadstica para estas escalas, ademas de las men-cionadas para las nominales, podemos citar a la mediana (que se vera masadelante).

    Como comentario final a este respecto, a las clases o categoras de una escalaordinal se les suele llamar rangos.

    LA ESCALA DE INTERVALOS. Cuando la escala goza de las propiedades deuna escala ordinal y ademas las distancias entre dos marcas o numeros en laescala son conocidas y significativas (en un sentido que aclararemos adelante)tenemos una escala de intervalos. Una escala de intervalos se caracteriza poruna unidad uniforme de medida. Para aclarar esto ultimo, si los numeros

    3

  • Medicion

    2, 4, 7, 9 dan la magnitud de cierta caracterstica de los objetos A, B, C, Den una escala de intervalos, podemos decir que la diferencia entre A y B (deesta caracterstica) es la misma que entre C y D. Tambien que la diferenciaentre B y C es 1.5 veces la diferencia entre A y B. En esta clase de medicion,la relacion de cualesquiera dos intervalos es independiente de la unidad demedida y del punto cero. En una escala de intervalos, la unidad y el puntocero son arbitrarios (pero una vez elegida una unidad, esta es uniforme entoda la escala).

    Las temperaturas, por ejemplo, se miden en escalas de intervalos. Si secomparan las escalas Celsius y Fahrenheit se vera que se transforman la unaen la otra por un cambio de origen (translacion) seguido (o precedido) porun cambio de unidad (homotecia)

    C =5

    9(F 32) F = 9

    5C + 32

    los orgenes (punto de congelacion del agua y temperatura de una mezclade nieve y sal comun, respectivamente) fueron convencionalmente elegidos,lo mismo que las unidades (grados). Las escalas de intervalos son unicasexcepto por transformaciones afines (x 7 ax+b, a > 0). Suelen ser asociadosnumeros a las posiciones de la escala de tal manera que las operaciones dela aritmetica pueden efectuarse significativamente con las diferencias entreestos numeros.

    Todas las medidas estadsticas parametricas comunes, p. ej.media aritmetica,desviacion estandar, son aplicables en una escala de intervalos.

    LA ESCALA DE RAZON O PROPORCION. Es una escala con las caractersticasde una escala de intervalos, pero que ademas posee un verdadero punto cerocomo origen. En una escala de razon, la proporcion o razon entre dos puntosde la escala es independiente de la unidad de medida. Una escala de razones unica excepto por transformaciones lineales (x 7 ax; a > 0). Por ejemplo,la medicion de masas o pesos se hace en una escala de razon. La razon de lamasa de un cuerpo a la masa de otro es independiente si la escala esta en gr.,kg., lb., etc. Si los numeros 2, 4, 7, 9 representan la magnitud de un atributode los objetos A, B, C, D al nivel de una escala de razon, sabemos que B tienedos veces el atributo que tiene A; D tiene 4.5 veces el atributo que A tiene, Ctiene 1.75 veces el atributo que B tiene, etc.

    4

  • Medicion

    CONTROL DE LECTURA

    1. En el texto, a que nos referimos cuando hablamos de aparatos de me-dicion?

    2. Cuales son las dos etapas (mencionadas en el texto) del proceso demedicion?

    3. En las ciencias fsicas, que significa, usualmente, medir?

    4. De un ejemplo de medicion (distinto al del texto) el cual no arroje re-sultados numericos.

    5. A traves de que concepto se especifica el nivel de medicion alcanzado?

    6. Que niveles de medicion se mencionan en el texto?

    EVALUACION

    1. Para cada uno de los siguientes ejemplos, especifique la escala de medi-cion correspondiente:

    a) Lugar obtenido en una competencia deportiva. . . . . .

    b) Lugar de nacimiento. . . . . .

    c) Indice de mortalidad infantil de una poblacion (en %). . . . . .

    2. En una escala de intervalos es posible intercambiar las categoras -3, 0,3, 4, 6 por -3, 0, 3, 4, 5, respectivamente.

    V F

    3. En una escala ordinal es posible intercambiar las categoras -3, 0, 3, 4,6 por -3, 0, 3, 4, 5, respectivamente.

    V F

    4. En una escala de intervalos es posible intercambiar las categoras -3, 0,3, 4, 6 por 0, 6, 12, 14, 18, respectivamente.

    V F

    5

  • Medicion

    5. En una escala de razon es posible intercambiar las categoras -3, 0, 3, 4,6 por 0, 6, 12, 14, 18.

    V F

    6. Las clases o categoras en una escala ordinal se denominan: . . . . .

    7. Si un cierto atributo medido al nivel de escala de intervalos arroja paralos sujetos A, B, C, D los resultados 1, 2, 4, 6 respectivamente, puedeasegurarse que:

    a) C posee el atributo en mayor grado que A y que B

    V F

    b) C posee el atributo doblemente que B

    V F

    c) D excede en el atributo a C en el doble de lo que excede B a A

    V F

    8. Un maestro elabora un examen consistente en 20 preguntas. El alumnoA.A. obtiene 12 aciertos y el alumno B.B. obtiene solo 6.

    Este examen pretenda medir el aprovechamiento de los alumnos en eltema X.

    El maestro argumenta que, puesto que 12 = 2 6 (12 es el doble de 6)es una verdad matematica incontrovertible, el alumno A.A. tuvo el doblede aprovechamiento que B.B.

    Es el juicio del maestro correcto?

    6

  • Medicion

    RESPUESTAS

    1. a) ordinal b) nominal c) de razon

    2. Falso. (La unidad de medida es uniforme en una escala de intervalos yno elastica, como se requirira para contraer los valores 4 y 6 a 4 y 5,dejando las diferencias restantes sin cambio).

    3. Verdadero. (El orden, que es lo unico que importa, se preserva bajo elintercambio).

    4. Verdadero. (Se trata de la transformacion x 7 2x+ 6).

    5. Falso. (Vease 4, y recuerde que en el caso de escalas de razon no seadmiten translaciones, pues existe un verdadero origen).

    6. Rangos.

    7. a) Verdadero. b) Falso. c) Verdadero.

    8. Difcilmente. De la relacion: 12 es el doble de 6, puede concluirse concerteza que A.A. contesto acertadamente al doble de las preguntas queB.B., pero no necesariamente que aprovecho el doble. Los numerosasignados miden la cantidad de aciertos, con certeza, pero no nece-sariamente la cantidad de aprovechamiento. Para que el juicio delmeastro fuese correcto, se requerira que los numeros asignados midie-ran el aprovechamiento a nivel de escala de razon. Esto ultimo implicaraque acertar en dos preguntas corresponde al doble de aprovechamientoque acertar en una. Luego, todas las preguntas deben tener exactamente(o muy aproximadamente) el mismo nivel de dificultad (cosa, en ver-dad, difcil!) y ademas en esas 20 preguntas se debe haber cubierto todoel aprovechamiento posible respecto al tema X (si alguien no acierta apregunta alguna, obtiene 0; luego, debio aprovechar exactamente nada;etc, etc.).

    7

  • Agrupacion de datos. Distribuciones de frecuencia.

    CAPITULO 2: AGRUPACION DE DATOS.

    DISTRIBUCIONES DE FRECUENCIA.

    En un sentido clasico, la estadstica podra ser definida como la ciencia quetrata del procesamiento de datos. Incluye la toma de datos, su recopilacion yel analisis de los mismos; derivando de este ultimo, conclusiones o decisionesrazonables.

    Que son los datos?

    Los datos son los resultados concretos que arroja una medicion. Puedentener un caracter numerico o no numerico. Cuando medimos las estaturasde una coleccion de personas, utilizando para ello una cinta metrica, cuyaescala este graduada en cm., los datos as obtenidos (estaturas en cm.) sonnumericos. Cuando medimos el estado civil de una coleccion de personas,de acuerdo a una escala nominal, cuyas clasificaciones sean: soltero, casa-do, union libre, viudo, divorciado; los datos as obtenidos son no numericos.Aunque empleasemos claves como 1, 2, 3, etc., para designar soltero, casado,union libre, etc., respectivamente, no cambiaramos la naturaleza no nume-rica de los datos; los numeros solo estaran jugando el papel de nombres, alno cuantificar ni jerarquizar cosa alguna.

    El proposito de medir es el de establecer el valor, o la posible determinacion deuna variable en un individuo particular. Suele decirse que medimos variables.En los ejemplos anteriores, las variables en consideracion eran: ESTATURAEN CM. y ESTADO CIVIL, respectivamente.

    Que es una variable?

    Una variable puede ser definida como un atributo en el cual los individuosdifieren entre s. El termino individuo, debe entenderse en un sentido muyamplio: personas, animales u objetos. Las variables pueden ser atributostan concretos como estatura, peso, etc., o tan nebulosos como sensibilidadmusical, tacto o buen gusto. Cuando se trata de atributos tan evasivoscomo inteligencia o aprovechamiento, es frecuente que el investigador o eldocente defina operativamente la variable en cuestion a traves del desempenoen una cierta prueba o en un examen. As, la inteligencia puede por ejemplo,ser definida operativamente como el puntaje obtenido por el alumno en elTest X.

    Que nos comunican los datos?

    Los metodos estadsticos son frecuentemente empleados en educacion, debidoa que nos permiten escribir en forma resumida o a golpe de vista colec-ciones de datos. Supongase que se ha realizado un examen en un grupo de

    9

  • Agrupacion de datos. Distribuciones de frecuencia.

    31 alumnos; consistiendo de 10 reactivos del tipo verdadero-falso. El desem-peno de un alumno siendo juzgado por el numero de reactivos contestadoscorrectamente. El desempeno de los 31 alumnos se describe en la siguientelista:

    2 3 3 4 4 5 5 5 5 6 66 6 6 6 7 7 7 7 7 8 88 8 8 9 9 9 10 10 10

    As, un alumno respondio correctamente 2 reactivos, otro 3, otro 3, otro 4,etc. Para que tal informacion resulte mas util, manejable o comunicable, losdatos pueden ser organizados en una tabla:

    Numero dereactivoscorrectos

    FrecuenciaFrecuenciarelativa

    Frecuenciaacumulada

    Frecuenciaacumuladarelativa

    0123456789

    10

    00122465533

    0036.56.5

    131916161010

    %%%%%%%%%%%

    001359

    1520252831

    003

    1016294864.58190

    100

    %%%%%%%%%%%

    Distribucion de frecuencias de la variable:numero de reactivos correctos

    En la tabla, cada renglon corresponde a una categora de la variable encuestion. De hecho, las categoras estan constitudas por los valores posiblesde tal variable: 0, 1, 2, . . ., 9, 10. Con el termino FRECUENCIA se designa elnumero de datos que caen en una categora o clasificacion. As, en el sextorenglon, que corresponde al valor 5 de la variable, la frecuencia (de ocurrenciadel valor 5) es 4, como puede verse en la lista, pues en ella el 5 apareceen cuatro ocasiones. Con FRECUENCIA RELATIVA se designa la fraccion oproporcion de los datos que caen en una categora dada. Tomando comoejemplo de nuevo a la sexta categora (sexto renglon de la tabla), observamosque de 31 datos el valor 5 aparece cuatro veces; luego, la frecuencia relativa

    10

  • Agrupacion de datos. Distribuciones de frecuencia.

    es 4/31 = 0.129 (aprox.) o sea el 12.9%, la cual hemos redondeado a 13% enla tabla. La frecuencia relativa puede expresarse como un numero entre 0 y1, o bien en por ciento. Con FRECUENCIA ACUMULADA se designa al numerode datos que caen en la categora dada o en cualquiera de las anteriores. As,tomando la sexta categora, la cual corresponde al valor 5, vemos que un totalde 0+0+1+2+2+4 = 9 datos caen en las categoras de la primera a la sexta(vease la segunda columna de la tabla o la lista). Estrictamente hablando,la frecuencia acumulada es, en el ejemplo anterior, el numero de datos queson menores o iguales que 5. La FRECUENCIA ACUMULADA RELATIVA es laproporcion de la frecuencia acumulada al total de los datos. Siguiendo connuestro ejemplo: 9/31 = 0.290 o sea el 29%.

    Si hubiesemos hecho una tabla con solo las dos primeras columnas de latabla anterior, obtendramos una Distribucion de Frecuencias (a secas) de lavariable. Si formamos otra con la primera y tercera columnas, obtenemosuna Distribucion de Frecuencias Relativas. Si utilizamos solo la primera y lacuarta columnas, obtenemos una Distribucion de Frecuencias Acumuladas,etc.

    Las distribuciones de frecuencias suelen representarse graficamente en formade histogramas, polgonos de frecuencia y polgonos de frecuencia acumula-da. Estos se ilustran a continuacion para los datos de la pag. 10, segun latabulacion anterior.

    El Histograma se forma del siguiente modo: En el eje horizontal se describenlas categoras. Con base en cada categora, se levantan rectangulos cuyaaltura es igual a la frecuencia (relativa o no) correspondiente a la categora:

    0 1 2 3 4 5 6 7 8 9 10

    Histograma

    3%

    6.3%

    10%

    13%

    16%

    19%frecuencia

    1

    2

    3

    4

    5

    6

    El polgono de frecuencias se forma uniendo los puntos medios de las tapas(o lados paralelos a las bases) de los rectangulos, de tal forma que el area

    11

  • Agrupacion de datos. Distribuciones de frecuencia.

    total de los rectangulos del histograma es igual al area bajo el polgono asformado. Se notara que en los extremos se suponen rectangulos de alturacero con igual base que los restantes. En nuestro ejemplo, el polgono defrecuencia se obtiene teoricamente uniendo los puntos (0, 0), (1, 0), (2, 1),(3, 2), (4, 2), (5, 4), . . ., (10, 3) y (11, 0) donde en cada pareja la primeracoordenada representa el valor central de la variable (en una categora dada),y la segunda, la frecuencia correspondiente:

    0 1 2 3 4 5 6 7 8 9 10 11

    Polgono de frecuencia

    123456

    frecuencia

    ....................................................................................................................................

    .......................................................................................................................................................................................................................................................................................................................................................................................................................................

    Por ultimo, el polgono de frecuencia acumulada, se obtiene uniendo las pa-rejas formadas por el valor del extremo superior (en cada categora) y lafrecuencia acumulada (relativa o no) correspondiente, en ese orden. En nues-tro caso uniendo las parejas (1.5, 0), (2.5, 1), (3.5, 3), (4.5, 5), . . . , (9.5, 28) y(10.5, 31) [o bien uniendo las parejas (1.5, 0%), (2.5, 3%), (3.5, 10%), . . . ] quecorresponden a la primera y cuarta columnas (resp. por la primera y quintacolumnas):

    0 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.510.5

    Polgono de frecuencia acumulada

    25%

    50%

    75%

    100%

    frecuenciaacumulada

    59

    15

    20

    25

    31

    ..................................................................................................

    ......................................

    ........................................

    ...........................................................................................................................................................................................................................................

    .............................

    ............................

    .....................

    Comentamos finalmente que lo que hemos llamado categoras o clasificacio-nes, son llamadas clases. En nuestro ejemplo, cada clase estaba definida porun unico valor de la variable y estaba denotada precisamente por ese valor

    12

  • Agrupacion de datos. Distribuciones de frecuencia.

    numerico. Estas clases constituyen la primera columna de la tabla de la pag.10.

    Veamos otro ejemplo. Un maestro de matematicas desea conocer la apti-tud matematica de sus alumnos. Hablando tecnicamente, el desea medir la(variable) aptitud matematica de sus estudiantes. Puesto que la variableaptitud matematica resulta bastante vaga en su significacion, el maestrola define operativamente como el puntaje en el test A. El test A ha sidoelaborado por el propio maestro para el fin deseado. Dicho test consiste en70 reactivos y cada uno es calificado con 0 o 1; 0 por una respuesta incorrectay 1 por una respuesta correcta, al reactivo considerado. El puntaje en el testA es computado sumando las calificaciones de los reactivos individuales, o loque es lo mismo, es el numero de reactivos contestados correctamente. Des-pues de que ha aplicado el test A a sus 21 alumnos, los 21 puntajes obtenidospor ellos se enlistan abajo

    62 59 57 55 52 50 4060 58 56 54 51 48 3760 57 55 53 50 47 32

    Deseamos recopilar la informacion para hacerla mas manejable. En principio,los puntajes posibles estan formados por todos los enteros desde 0 hasta70 (o sea 71 puntajes posibles). Obviamente no podramos proceder comolo hicimos con los puntajes de la prueba de 10 reactivos V-F por razonespracticas (una columna de 71 miembros sera demasiado grande).

    Se procede entonces a agrupar los datos en clases o categoras. Cada clasecomprende a cierto rango de puntajes. Por ejemplo, las clases podran serlas siguientes:

    CLASES

    30 3637 4344 5051 5758 64

    As, la primera clase engloba a los puntajes comprendidos entre 30 y 36(incluyendo a ambos valores extremos). En este caso, hemos elegido a lasclases de igual tamano (tamano 7, de hecho).

    La distribucion de frecuencias se construye como antes, asignandole a cadaclase su frecuencia, en vez de a cada puntaje individual. Entendiendo porfrecuencia de clase al numero de datos que caen en el rango de valores de la

    13

  • Agrupacion de datos. Distribuciones de frecuencia.

    clase. En nuestro ejemplo, la frecuencia de la primera clase (30 36) es 1,pues solo el dato 32 pertenece a la clase.

    A continuacion se expresa la distribucion, en forma de tabla:

    Puntomedio

    Clase(de puntajes)

    FrecuenciaFrecuenciarelativa

    3340475461

    30 3637 4344 5051 5758 64

    12495

    21

    4.89.5

    19.042.923.8

    100.0

    %%%%%

    t o ta l e s : %

    La unica columna nueva que aparece es la primera (la de PUNTOS MEDIOS).Se entiende que el punto medio de la clase es el representante de la clase,en el sentido de que se pueden suponer concentrados los datos en los puntosmedios (siempre que se trate de una distribucion de frecuencias, a secas, yno de una distribucion acumulada).

    Medicion.

    Otra clasificacion de las escalas numericas que va a resultar relevante poste-riormente es:

    escalas numericas{continuasdiscretas

    Continua. Entre dos marcas cualesquiera existe siempre una tercera. Si x ey son dos tales marcas, digamos que se cumple que x < y, entonces existeuna marca c tal que x < c < y. Mas aun, cualquier posicion intermedia entredos marcas es concebible: para pasar de una intensidad x a una mayor y sepasa por todas las intensidades intermedias.

    Discreta. En el caso infinito, se puede poner en correspondencia con el con-junto de los enteros positivos, de tal forma que la correspondencia es creciente(o decreciente) en sentido estricto ya que, en particular, la correspondenciaes biunvoca (ademas de monotona). En el caso finito se puede poner encorrespondencia creciente o decreciente con un conjunto {1, . . . , N} paraalgun N Z+.Por otro lado, tenemos que las restricciones propias de los aparatos de medi-cion, dado su poder de resolucion, nos discretizan las escalas numericas. Porejemplo, supongamos que una cierta balanza puede precisar las medicioneshasta decimos de gramo; as, las lecturas que se hicieran (en gramos) serande la forma N.d (N entero, d dgito).

    14

  • Tecnica para la agrupacion de datos ...

    Una tecnica para la agrupacion de datos en clases de igual tamano(caso continuo).

    Partiremos de los siguientes supuestos:

    S1. Suponemos, en principio, una escala de medicion continua para la varia-ble en cuestion1.

    S2. Suponemos conocido el poder de resolucion del instrumento de medicion,ya sea explcitamente dado o implcitamente reflejado en la escritura delos datos. Esto es, conocemos la precision (el numero de cifras significa-tivas resp. a la unidad) utilizada para los datos.

    Para fijar ideas, antes de continuar tomemos como referencia la siguientecoleccion de datos, una muestra, los cuales son reales, i.e., corresponden aobservaciones empricas:

    Financiamiento solicitado para Proyectos

    de Investigacion Educativa, 1993.

    (en miles de N$)

    93.6 51.3 24.3 7.5 42.5 88.2

    73.2 98.3 40.1 9.6 8.4 12.9

    5.9 82.3 66.3 14.3 46.6 10.0

    12.8 60.0 60.4 18.6 16.1 63.6

    18.2 31.9 34.3 66.0 26.5 18.5

    Como puede apreciarse, la variable en cuestion es financiamiento solicitado,la cual es, al menos teoricamente, de naturaleza continua. Vemos, tambien,que los datos, en miles de nuevos pesos (i.e., la unidad es el millar de nuevospesos), han sido redondeados a decimas de unidad, es decir, al centenar masproximo de nuevos pesos. Luego, la precision de los datos, en este caso hastadecimas de la unidad, nos es dada en forma implcita. La precision de losdatos, discretiza a la escala de medicion en el sentido de que las posicionesen la escala (i.e., las marcas) las cuales pueden representar datos procedenpor incrementos o decrementos discretos a partir de una de ellas (en nuestroejemplo, a partir de 93.6, tenemos 93.7, 93.8, 93.9, etc. y no hay dato alguno

    1 Esta hipotesis suele ser relajada. Esto es, ya sea la tecnica de este apartado, o bien,

    los principios o ideas utilizados, se aplican, como tendremos oportunidad de verlo mas

    adelante, a variables discretas. Claro esta, las ideas expuestas modelan mejor el caso

    continuo, del que se fundamentan.

    15

  • Tecnica para la agrupacion de datos ...

    que pueda caer estrictamente entre dos marcas consecutivas, v. gr. ningundato puede ser intermedio entre 93.6 y 93.7).

    Una vez que se tiene determinado lo anterior, se siguen los siguientes pasos:

    1o Determinacion del intervalo de valores aceptables para el numero declases. Restringimos primero al entero N (numero de clases) de acuerdoa una regla emprica, digamos 4 N 15. Para evitar clases vacas,aplicamos otra restriccion sobre N . Si denotamos con M el tamano dela muestra (i.e., M es el numero de datos de la muestra; en el ejemploM = 30), pedimos, en promedio, del orden de 4 o mas datos por clase,i.e., M/N 4, o sea, N M4 si el cociente es entero y podemos acordar,cuando M4 no es entero, que N no exceda al entero mas proximo superioral cociente. Equivalentemente, puesto que N debe ser un entero, queN M+34 (ver Nota 1). En resumen, 4 N mn{15, M+34 }. (Para elejemplo, 4 N mn{15, 30+3

    4}, o sea, 4 N 8).

    2o Ordenamos los datos, determinando los datos mnimo y maximo. (Ennuestro ejemplo, mn = 5.9 y max = 98.3; vease tabla abajo)

    Datos Ordenados

    5.9 12.8 18.5 34.3 60.0 73.2

    7.5 12.9 18.6 40.1 60.4 82.3

    8.4 14.3 24.3 42.5 63.6 88.2

    9.6 16.1 26.5 46.6 66.0 93.6

    10.0 18.2 31.9 51.3 66.3 98.3

    3o Calculamos m, el numero de datos posibles entre el mnimo y maximoinclusives. (Para el ejemplo, m = 925; vease el calculo de m abajo)

    m = #{5.9, 6.0, 6.1, . . . , 98.2, 98.3}= #{59, 60, 61, . . . , 982, 983}= #{1, 2, 3, . . . , 982, 983} #{1, 2, 3, . . . , 57, 58}= 983 58= 925.

    4o Hacemos una tabla con las columnas: N (numero de clases), T (tamanode clase) y S (marcas sobrantes). En la tabla, para cada valor de Naceptable (en el ejemplo, 4 N 8), el valor de T correspondientese obtiene como el menor entero impar que es mayor o igual a mN (ver

    16

  • Tecnica para la agrupacion de datos ...

    Nota 2). Puesto que el menor entero que es mayor o igual a mN coincide

    con la parte entera del cociente m+N1N

    (ver nota 3), tenemos que2

    T =

    [m+N1

    N

    ]si[m+N1

    N

    ]es impar

    [m+N1

    N

    ]+ 1 si

    [m+N1

    N

    ]es par

    Finalmente, S esta dado por S = NT m. Ilustramos lo anterior conuna tal tabla3 para nuestro ejemplo:

    N m+N1N T S

    4

    5

    6

    7

    8

    9284 = 232

    9295 = 185.8

    9306 = 155

    9317 = 133

    9328

    = 116.5

    233

    185

    155

    133

    117

    7

    0

    5

    6

    11

    5o Son preferentes los valores de N que den un valor mnimo, y tambienpar, para S. Tratando de establecer un compromiso entre ambos requeri-mientos, daremos, a continuacion, un criterio para los mejores valorespara N . Se escoge el (los) mejor(es) valor(es) para N de acuerdo alcriterio que sigue. Sea S0 el valor mnimo para los S correspondientesa los valores admisibles de N . Si S0 es par, o bien, S0 es impar y Snunca toma el valor S0 + 1, los mejores valores para N son los quecorrespondan a S0. Si S0 es impar y el par siguiente, i.e. S0 + 1, es unvalor de S, entonces los mejores valores de N son los correspondientesal entero par S0 + 1. Para nuestro ejemplo (ver tabla), el mejor valorde N es 5. Como segunda mejor opcion (piensese que no existe el ren-glon de N = 5 en la tabla), tenemos, de acuerdo al criterio, la seleccionN = 7, correspondiente a S = 6.

    2 Con [x], donde x es un numero real positivo, estamos denotando la parte entera de x,

    i.e., [x] es el mayor entero que no excede a x.

    3 La presencia de la segunda columna de la tabla es opcional, lo mismo que su contenido:

    Tambien se puede, simplemente, calcular mN

    y por inspeccion del cociente determinar

    el menor impar mayor que, o igual a, mN . La ventaja del procedimiento sugerido en la

    segunda columna con respecto al ultimo, es que resulta mas algortmico, i.e., mas natural

    de ser programado en una computadora.

    17

  • Tecnica para la agrupacion de datos ...

    Notas

    Nota 1. Las condiciones, N M4

    si M4

    es entero, o bien, N menor o igual

    que el entero mas proximo, por exceso, a M4 , cuando este ultimo no es entero,

    son equivalentes a N k, donde k es el menor entero mayor o igual a M4 .En efecto, la equivalencia es obvia si M4 es entero, pues en ese caso coincidecon k (i.e., el menor entero mayor igual al cociente es el cociente mismo) ysi el cociente no es entero, el entero mas proximo por exceso es tambien elmenor entero mayor que el cociente, luego, coincide con k. Por otro lado, kes la parte entera del cociente M+3

    4(ver Nota 3), luego las condiciones del

    inicio equivalen a N M+34 .Nota 2. El valor de T debe ser impar para que los puntos medios de cadaclase tengan la misma precision en cifras decimales que los datos, i.e., paraque los puntos medios representen un dato (o una medicion directa) posible.La otra condicion sobre T , a saber T mN , se requiere para que NT m; esto es, con las N clases contiguas deben cubrirse las m marcas, paraque pueda garantizarse que las marcas extremas (mn y max), las cualescorresponden a datos, esten includas en la cobertura (no queremos que hayadatos huerfanos, sin clase alguna que los acoja).

    Nota 3. Probaremos, en general, que si m y n son dos enteros positivos, elmenor entero que es mayor o igual que el cociente mn coincide con la parteentera de m+n1n . Sean, respectivamente, k el menor entero mn y q la parteentera de m+n1n . Tenemos m+n 1 = nq+ r donde r, el residuo de dividirentre n en los enteros, satisface 0 r n 1. Luego, si r = n 1 se tienem = nq, i.e., el cociente mn es entero y coincide con q; y si r < n1, entoncesm = n(q 1) + (r + 1) con 0 < r + 1 < n, luego m

    n= (q 1) + r+1

    n, o

    sea, (q 1) < mn < q. En resumen, q, la parte entera del cociente m+n1n ,coincide con k.

    6o Una vez elegido N , se procede a determinar las clases de tal maneraque las S marcas sobrantes se repartan lo mas balanceadamente posible:tantas marcas por debajo del valor mnimo (denotado mn) como porarriba del maximo (denotado max) de los datos. Mas precisamente,descomponemos a S en la suma de dos enteros lo mas parecidos entres: S = Sa + Sb, la primera clase (i.e., la mas inferior) iniciando conla marca cuyo valor denotaremos con a1 y que se encuentra Sa lugaresabajo de la marca que corresponde al mnimo y la ultima clase (i.e., laN -esima) finalizando con la marca que esta Sb posiciones por arriba dela marca del dato maximo. Si denotamos con el incremento entremarcas (para nuestro ejemplo, = 0.1), la primera clase iniciara con

    18

  • Tecnica para la agrupacion de datos ...

    a1 = mn Sa y la ultima clase finalizara con bN = max+ Sb. Si engeneral, para una clase cualquiera, e.g., la i-esima, denotamos con ai elvalor de su marca inicial y con bi el de su marca final, el diagrama deabajo ilustra la situacion de una clase tpica:

    ......

    ..................

    ......

    ..................

    T marcas

    ai ai + bi ai+1de donde, como bi se encuentra T 1 marcas por arriba de ai, se tienebi = ai + (T 1) y, por lo tanto, ai+1 = ai + T. Consiguientemente,se obtienen las formulas:

    ai = a1 + (i 1)T y bi = a1 + (iT 1) (i = 1, . . . , N)

    donde a1 = mn Sa . Como mecanismo de comprobacion, utilicemoslas formulas para obtener el valor de bN :

    bN = a1 + (NT 1)= mn Sa+ (m 1 + S) pues NT = m+ S= mn + (m 1)+ (S Sa)= max + Sb pues max = mn + (m 1)

    Los puntos medios o marcas de clase que estamos denotando con ci, secalculan (recuerde que T es impar), de acuerdo a la figura,

    ......

    ..................

    ......

    ..................

    ......

    ......

    12 (T1) marcas

    12 (T1) marcas

    ai ci bi

    con ci = ai +12 (T 1). Observe que ai + 12 (T 1) = 12(ai + bi),

    luego ci =12 (ai + bi). Sin embargo, desde el punto de vista practico,

    seguramente resultan mas utiles las siguientes formulas recursivas, cuyaredundancia favorece la introduccion de mecanismos de comprobacion:

    a1 = mn Sa b1 = a1 + (T 1) c1 = a1 +1

    2(T 1)

    ai+1 = ai + T bi+1 = bi + T ci+1 = ci + T

    Finalmente, para el ejemplo que hemos venido trabajando, aplicamos lasultimas formulas (junto con bN = max + Sb) determinando las clases paralos tres mejores valores de N (ver tabla del apartado 4o):

    19

  • Tecnica para la agrupacion de datos ...

    N puntomedio frec.clase = 0.1 mn = 5.9 max = 98.3

    5

    7

    6

    T = 185

    T = 18.5(T 1) = 18.412(T 1) = 9.2

    T = 133

    T = 13.3(T 1) = 13.212 (T 1) = 6.6

    T = 155

    T = 15.5(T 1) = 15.412 (T 1) = 7.7

    S = 0

    Sa = 0Sb = 0

    S = 6

    Sa = 0.3Sb = 0.3

    S = 5

    Sa = 0.2Sb = 0.3

    a1 = 5.9

    b1 = 24.3

    c1 = 15.1

    (b5 = 98.3)

    a1 = 5.6

    b1 = 18.8

    c1 = 15.1

    (b7 = 98.6)

    a1 = 5.7

    b1 = 21.1

    c1 = 13.4

    (b6 = 98.6)

    5.9 24.324.4 42.842.9 61.361.4 79.879.9 98.35.6 18.8

    18.9 32.132.2 45.445.5 58.758.8 72.072.1 85.385.4 98.65.7 21.1

    21.2 36.636.7 52.152.2 67.667.7 83.183.2 98.6

    15.133.652.170.689.112.225.538.852.165.478.792.013.428.944.459.975.490.9

    135444

    12332523

    1244523

    20

  • Complemento a los captulos 1 y 2

    COMPLEMENTO A LOS CAPITULOS 1 Y 2

    Escalas.

    Los niveles de medicion son un ejemplo de una escala ordinal:

    nominal < ordinal < intervalo < razon

    donde

  • Complemento a los captulos 1 y 2

    determinado) es llamado el conjunto de valores de la variable o rango de lamisma.

    Variable (en matematicas) es una pareja v. gr. (x,A) formada por un smbolo(el nombre de la variable) y un conjunto (barrido o rango) cuyos elementosson los valores de la variable. En la practica la variable se identifica con susmbolo y su rango es frecuentemente sobreentendido.

    Por ejemplo, x + 3 < 2x + 2 implica que 1 < x entonces x + 3 < 2x +2 x > 1 . Pero si tuvieramos la condicion de que x + 2 < x + 3 estoimplicara que 0 < 1 (o 1 < 0) lo cual ciertamente es verdadero, por loque x+ 2 < x+ 3 x R.En Estadstica (educativa): la variable es cualquier caracterstica (o atributo)con la cual es posible, en principio, distinguir a unos individuos de otros.(La palabra individuos, tomada en un sentido amplio, puede referirse apersonas, a animales, a objetos, etc.)

    El barrido o rango se deja generalmente implcito y la Estadstica no cons-tituye la excepcion. Este conjunto de valores corresponde en Estadstica a lapoblacion de interes4 (conjunto de individuos en los que se pretende medircierta caracterstica).

    La poblacion meta es la coleccion de individuos de interes (i. e. en los queinteresa determinar el valor de la variable). Medir una variable quiere decirdeterminar el atributo en cuestion para individuos de la poblacion.

    El proposito de medir es el de averiguar el comportamiento de la variableen cierta poblacion. Por ejemplo, en una poblacion de profesores se midela variable actitud hacia los alumnos, la cual puede asumir los valores:amigable (A), hostil (H) o indiferente (I). Observemos lo siguiente:

    ......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    ........................................................................................................................................................................ ...................................................................................................................................................................................................................... ......

    .......

    .......

    .......

    ......

    ...........................................................................

    I H A

    Poblacion de maestros

    de la Universidad X

    ......

    .......

    .......

    .......

    .......

    .......

    .......

    ................................................................................................ .................................................................................................................................................................................... ......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    ........................................................................................................................................................................

    I H A

    Poblacion de maestros

    de la Universidad Y

    4 A veces se sustituye por una muestra representativa.

    22

  • Complemento a los captulos 1 y 2

    En esto lo que se lee es que el comportamiento en la poblacion X es esencial-mente indiferente (I) y el de la poblacion Y es esencialmente amigable(A).

    La comparacion esta basada en la frecuencia. Las frecuencias (de hecho lasrelativas) son el criterio para determinar el comportamiento de la variable.

    En estos diagramas de barras la escala del eje vertical no tiene ningunaimportancia ya que esto nos hablara solo del tamano de la poblacion; pero loque estamos tomando para la comparacion es la MODA (frecuencia mayor).

    Datos agrupados.

    Como ya antes mencionamos, el instrumento de medicion discretiza la es-cala ya que su poder de resolucion la achata, es decir, un intervalo continuode infinitas marcas lo discretiza en un numero finito de ellas.

    Si queremos emular lo anterior (hecho para una escala nominal) pero ahoramidiendo una variable a nivel de escala de intervalo o cercana (i. e. unaescala al menos ordinal, numerica y continua) necesitamos agrupar datos, esdecir, hacer categoras o clases gordas a partir de infinitas teoricas o ungran numero de ellas discretizadas por el instrumento.

    Por ejemplo, supongamos que la variable que queremos medir es la estaturade las personas adultas de cierta poblacion. Los valores de nuestra variableseguramente estaran entre 1m y 2m, intervalo en el cual tendramos infinitascategoras (teoricas). Pero ya sea por las limitaciones del aparato de mediciono por que se considere que las cifras significativas en la medicion sean solohasta mm, tendremos entonces 1001 categoras: 1.000, 1.001, 1.002, ... ,1.999, 2.000.

    Aunque la discretizacion nos reduzca de infinitas a solo mil categoras, creary leer el comportamiento de la variable en un diagrama de barras con milrectangulos o en una tabla de distribucion de frecuencias con mil renglonessera algo muy difcil y posiblemente infructuoso, por lo que hay que agrupardatos, es decir agrupar categoras.

    Estimacion.

    Supongamos que queremos estimar99. Vamos a considerar que

    ax =

    1

    a+x

    23

  • Complemento a los captulos 1 y 2

    y como primera aproximacion de99 vamos a tomar x0 = 10. Entonces

    1099 =

    1

    10 +99

    10 xi+1 se estima con 110+xi , tenemos entonces que 10 x1 =1

    10+x0de

    donde x1 = 10 110+x0 y como x0 = 10 entonces

    x1 = 101

    10 + 10= 10 1

    20=

    199

    20= 9.95

    por lo que x1 = 9.95. Para x2:

    x2 = 101

    x1= 10 1

    10 + 9.95= 9.949, . . . etc.

    Lectura de datos. Precision y exactitud.Primer acercamiento a la medicion. Lectura inteligente de los datos.

    Idealmente deberamos tener

    cifras significativas = redondeos naturales

    La precision tiene que ver con cuantas cifras se usan, pero esto no es lomismo que la exactitud. Por ejemplo, los datos del Financiamiento paraProyectos: 93.6, 73.2, 5.9, ... se expresan en miles de nuevos pesos (1993)con una precision de cientos de pesos. Y en este caso los valores se hanredondeado al centenar de pesos mas cercano, por lo que su exactitud eshasta cientos de pesos.

    Precision vs. exactitud: Como representante numerico de , 3.001 es unnumero con mayor precision que lo sera el numero 3.1; pero 3.1, como re-presentante de , es un numero con mayor exactitud que 3.001 en esa mismacalidad.

    Respecto a los datos del Financiamiento para Proyectos, partimos de lassiguientes hipotesis:

    (1) La escala es teoricamente continua ($).

    (2) Se acuerda que la precision de los datos es hasta cientos de pesos. (En lacoleccion de datos, no se vale que los datos tengan diferente precision).

    Nota: como dato, como observacion emprica, no es lo mismo 15 que15.0.

    24

  • Complemento a los captulos 1 y 2

    Tecnica para la agrupacion de datos en clases iguales.

    Vamos a tomar como ejemplo los datos de la pagina 9:

    62 59 57 55 52 50 40

    60 58 56 54 51 48 37

    60 57 55 53 50 47 32

    Para la tecnica que a continuacion se describe, consideremos:

    M = tamano de la muestra. El tamano de la muestra (o poblacion) esel numero total de datos. En nuestro ejemplo, M = 21.

    m = numero de datos teoricamente posibles entre el dato mnimo y elmaximo y

    N = numero de clases.

    Tecnica.

    1. Valores aceptables para N .

    a) Como una regla emprica tenemos que

    4 N 15

    Muy pocas clases (menos de 4) no dicen nada o casi nada. Dema-siadas clases (mas de 15) hacen los histogramas de difcil lectura.

    b) Se debe evitar que queden clases vacas ya que esto provoca unaimagen de discontinuidad:

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    ....................................................................................................................................................................... ............................................................................................................................................................................................................................

    .......

    .......

    .......

    .......

    .......................................................................... .............................................................................................................

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    Con el fin de evitar esto, vamos a pedir un cierto numero (en pro-medio) mnimo de datos por clase: ese numero mnimo de datoslo obtenemos del cociente MN , pidiendo que

    MN4 (holgadamente).

    Despejando obtenemos:

    N M4

    siM

    4es entero;

    25

  • Complemento a los captulos 1 y 2

    y si no, pedimos

    N M + 34

    En nuestro ejemplo M4 =214 = 5.25, estirandole obtenemos 6, por

    lo tanto N 6. Con M+34 obtenemos M+34 = 21+34 = 244 = 6Finalmente, hemos determinado que el intervalo de valores acepta-bles para N (numero de clases) es 4 N 6.

    2. Ordenar los datos y determinar el dato mnimo y el datos maximo. Enel ejemplo, mn = 32 y max = 62.

    3. Calcular m que es igual al numero de datos posibles que hay entre eldato mnimo y el dato maximo.

    En el ejemplo, m = dato maximo sobrantes = 62 31 = 31 :

    1 2 30 31sobrantes

    32

    33 34 60 6162

    dato maximo

    Para evitar clases fantasmas (o sea, que ningun dato cae ah) T se definecomo el mnimo entero impar tal que NT m y de aqu se deduce que losvalores sobrantes seran S = NT m. Los sobrantes deben ser mnimos yde preferencia pares para repartirlos por exceso y por defecto y as tenerlos datos centrados.

    En nuestro ejemplo, tenemos 31 marcas que hay que barrerlas todas, porlo que una condicion obvia es que NT 31. En general NT m, de dondeobtenemos la condicion de que T m

    N.

    Ademas ponemos tambien la condicion de que T sea impar. Por que? Vea-mos.

    Supongamos T par clase

    .......

    .......

    .......

    .......

    .......

    .......

    .......................

    ....................

    centro(el centro de la clase es una marca inexistente)

    El centro de la clase es el representante de la clase. Con T par, comopodemos ver en la figura, la clase va a ser representada por una marca queno existe (i. e. el centro de la clase tiene una precision diferente, de hechomayor, a la de los datos). Esta es la razon fundamental por la que T debe

    26

  • Complemento a los captulos 1 y 2

    ser impar, para poder tomar como representante de la clase la marca central,la cual es un valor posible de la variable (con la misma precision).

    4. Formar una tabla con tres columnas: la primera columna contendra losvalores posibles de la variable independiente N (numero de clases), dela que dependeran los valores de T (tamano de clase) y de S (datossobrantes) los cuales ocuparan la segunda y la tercera columnas respec-tivamente:

    NT = tamano de la clase

    (menor entero impar mN)

    S = datos sobrantes

    (S = NT m)

    Para los datos anteriores, los valores posibles de N son: 4, 5 o 6. Podramosbuscar el valor de T usando la condicion de que NT 31. Por ejemplo, paraN = 4

    sea T = 7 entonces NT = 4 7 = 28 < 31sea T = 8 entonces NT = 4 8 = 32 > 31 (pero 8 es par)sea T = 9 entonces NT = 4 9 = 36 > 31,

    en la siguiente tabla podemos ver que el valor de T calculado para N = 4 esprecisamente 9. Calculando T y S para cada uno de los valores de N (4, 5 y6) obtenemos:

    N T S

    4

    5

    6

    9

    7

    7

    5

    4

    11

    Como ya antes mencionamos, los sobrantes deben ser mnimos y de preferen-cia pares. Los valores de S que hemos obtenido son 4, 5 y 11 de los cuales 4es el mnimo y es par por lo que nuestra eleccion claramente debe ser N = 5.De esta manera los sobrantes pueden repartirse exactamente por exceso ypor defecto:

    30 3132

    6263 64

    defecto

    exceso

    27

  • Complemento a los captulos 1 y 2

    5. As: N = 5 T = 7 S0 = 4

    .............................

    .............................

    .............................

    .............................

    .... T=7

    N=51 2 3 4 5 6 7

    1

    2

    3

    4

    5

    30 31 32 33 34 35 36

    37 38 39 40 41 42 43

    44 45 46 47 48 49 50

    51 52 53 54 55 56 57

    58 59 60 61 62 63 64

    La tabla de frecuencias y el diagrama de barras que corresponden a estaagrupacion nos quedan:

    clase

    1 30 36

    2 37 43

    3 44 50

    4 51 57

    5 58 64

    frecuencia

    1

    2

    4

    9

    5................................................................................................................................

    .......

    .......

    .......

    .......

    .......

    .............................................................................................................................................................................................................................................................................................................................................................................................................

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    .......

    ..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

    1

    3036

    2

    3743

    3

    4450

    4

    5157

    5

    5864. . . . . . . . .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    Lo que buscamos es la mejor distribucion al agrupar los datos. De lossobrantes S sea S0 el mnimo. Si S0 es impar, prefierase la N correspondientea S0+1 (par). Veamos el siguiente ejemplo (tomado de las notas de la tecnicapara la agrupacion de datos):

    N

    4

    5

    6

    7

    8

    T

    233

    185

    155

    133

    117

    S

    7

    0 1o

    5 3o

    6 2o

    11

    En primer lugar tomamos N = 5 con S = 0. En segundo lugar tomaramosN = 7 con S = 6 (3 por defecto y 3 por exceso). Y en tercer lugar tomara-mos N = 6 con S = 5. En este ultimo caso, los sobrantes tendramos que

    28

  • Complemento a los captulos 1 y 2

    repartirlos 3 (o 2) por exceso y 2 (o 3) por defecto, que aunque de todasmaneras representa un sesgo, sera el mejor balance.

    Redondeos.

    Redondear x a enteros es encontrar un numero que corresponda al enteromas cercano a x. El proposito es asignarle a x (o convertirlo a) este numeroentero.

    La regla para redondear a enteros es la siguiente: los numeros decimales entreN.0 y N.4 se convierten a (se les asigna) N . Mientras que los numerosdecimales entre N.5 y N.9 se convierten a (se les asigna) N + 1.Por ejemplo, para los numeros decimales entre 3 y 4 con precision hastadecimales tenemos

    5 mas bajos

    5 mas altos

    3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9

    y con precision hasta centesimos tenemos

    50 mas bajos

    3.00, 3.01, 3.02, . . . , 3.48, 3.49,

    50 mas altos

    3.50, 3.51, 3.52, . . . , 3.98, 3.99,

    El sistema esta balanceado a nivel continuo, ya que hay un solo caso (en unainfinidad) en el que falla.

    3.49999 . . . y 3.50000 . . . son dos representaciones para el mismo numero real.El el caso de 3.49999 . . . al redondear a enteros se convierte a 3 y en el casode 3.50000 . . . se le asigna 4. As que la mitad de las veces lo manda paraatras y la otra mitad lo manda para adelante, por lo que esta en balance(bueno, es lo mismo para redondear a decimos, a centesimos, etc.).

    Como saber si una calculadora trunca o redondea?

    1. Ver cuantos dgitos imprime en la pantalla. Supongamos que son ocho.

    29

  • Complemento a los captulos 1 y 2

    2. Calcular (1.0003)2:

    (1 + 0.0003)2 = (1 + 3 104)2

    = 1 + 6 104 + 9 108

    = 1 + 0.0006 + 0.00000009

    = 1. 00060009

    8 cifras significativas

    Si la calculadora trunca, el resultado sera 1.0006000; si redondea, enton-ces el resultado sera 1.0006001.

    Volviendo al ejemplo de las notas, en la tabla al final de la pagina 8 (deeste escrito), tenemos una columna para T : como se calculan estos valores?Veamos. T es el menor entero impar m

    N, entonces (m = 925):

    N

    4

    5

    6

    7

    8

    m/N

    925/4 = 231.25

    925/5 = 185.00

    925/6 = 154.17

    925/7 = 132.14

    925/8 = 115.63

    T

    233

    185

    155

    133

    117

    Ahora bien, debemos avanzar hacia la construccion de una Tabla de Fre-cuencias. En ella se especifican, ademas de la clase, los puntos medios(marcas de clase), las frecuencias, las frecuencias relativas, las frecuenciasacumuladas y posiblemente las frecuencias acumuladas relativas. Tomemosde nuevo los datos de la pagina 13 con las clases que ya habamos determinadoy veamos la siguiente tabla:

    clasepuntomedio frec.

    frec.acum.

    frecuenciarelativa

    frec. acum.relativa

    30 36

    37 43

    44 50

    51 57

    58 64

    33

    40

    47

    54

    61

    1

    2

    4

    9

    5

    1

    3

    7

    16

    21

    121 = 0.0476 = 4.76%

    221 = 0.0952 = 9.52%

    421 = 0.1905 = 19.05%

    921 = 0.4285 = 42.85%

    521 = 0.2381 = 23.81%

    121 = 0.0476 = 4.76%

    321 = 0.1429 = 14.29%

    721 = 0.3333 = 33.33%

    1621 = 0.7619 = 76.19%

    2121 = 1.0000 = 100.00%

    Con la informacion contenida en esta tabla de frecuencias estamos casi listospara empezar a graficar histogramas, polgonos de frecuencia y polgonos

    30

  • Complemento a los captulos 1 y 2

    de frecuencia acumulada. El detalle que falta es la determinacion de losextremos reales de la clase.

    Vamos a empezar considerando que los datos son redondeos de los numerosexactos. Por ejemplo, la primera clase de la tabla anterior es el conjunto delos valores: 30, 31, 32, 33, 34, 35 y 36. Que valores reales (la totalidad) alser redondeados a enteros nos da la coleccion de estos 7 elementos?

    Va redondeo a enteros, el intervalo [29.5, 36.5] (36.5 = 36.4999 . . .) se con-vierte en la clase: [30, 36]. De la misma forma podemos determinar que, varedondeo a enteros, el intervalo [36.5, 43.5] (43.5 = 43.4999 . . .) se convierteen la clase [37, 43], etc.

    En resumen, los intervalos de extremos reales para las clases de la tablaanterior son

    [29.5, 36.5] 30 36[36.5, 43.5] 37 43[43.5, 50.5] 44 50[50.5, 57.5] 51 57[57.5, 64.5] 58 64

    Si en lugar de tomar directamente las clases para graficar las frecuencias(como lo hicimos en la pag. 7 de estas notas) tomamos los intervalos reales,vamos a tener los rectangulos del diagrama contiguos, dando correctamentela idea de continuidad (recordemos que partimos de la hipotesis de que lavariable es continua) entonces lo que estamos obteniendo es el histogramaque describe graficamente la distribucion (la frecuencia) de los datos:

    29.5 36.5 43.5 50.5 57.5 64.5

    Histograma

    26 33 40 47 54 61 68

    4.8%

    9.5%

    19%

    23.8%

    42.9%

    frecuencia

    1

    2

    4

    9

    5

    31

  • Complemento a los captulos 1 y 2

    Las fronteras en los histogramas son los extremos reales de las clases. Laprecision de los datos es menor que la de las fronteras, y es justamente poresto que nunca vamos a tener el problema de que un dato caiga en algunade las fronteras. Esta tecnica es muy util para construir histogramas, comoacabamos de ver, y tambien para graficar polgonos de frecuencia y polgonosde frecuencia acumulada, como veremos a continuacion.

    La siguiente figura es el Polgono de frecuencia al que corresponden los datosde la quinta columna de la tabla de la pagina 30 y los intervalos de extremosreales para las clases de esa tabla:

    26 33 40 47 54 61 68

    Polgono de frecuencia

    ......

    ..........

    ......

    ..........

    ......

    ..

    4.8%

    9.5%

    19%

    23.8%

    42.9%

    frecuencia

    1

    2

    4

    9

    5

    ...........................

    ....................................................................

    ........................................

    .......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

    La siguiente figura es el Polgono de frecuencia acumulada al que correspon-den los datos de la ultima columna de la tabla:

    29.5 36.5 43.5 50.5 57.5 64.5

    Polgono de frecuencia acumulada

    25%

    50%

    75%

    100%

    frecuenciaacumulada 1

    3

    7

    16

    21

    ...............................................................

    .....................................

    ...................................

    .......................................................................................................................................................................................................................................................................................................................

    32

  • Complemento a los captulos 1 y 2

    Es importante hacer notar que tanto la frecuencia acumulada como la fre-cuencia acumulada relativa deben acumularse precisamente en el extremodonde ya se cumplio la clase, es decir, tomar el extremo de la derecha permi-tiendo as que ya se hayan acumulado los datos. De esta manera, podemosver en los polgonos de frecuencia y frecuencia acumulada que tenemos losiguiente:

    intervalosreales clase

    puntomedio

    frec.acum.

    frec. acum.relativa

    [29.5 , 36.5]

    [36.5 , 43.5]

    [43.5 , 50.5]

    [50.5 , 57.5]

    [57.5 , 64.5]

    30 36

    37 43

    44 50

    51 57

    58 64

    33

    40

    47

    54

    61

    1

    3

    7

    16

    21

    121 = 0.0476 = 4.76%

    321 = 0.1429 = 14.29%

    721

    = 0.3333 = 33.33%

    1621 = 0.7619 = 76.19%

    2121 = 1.0000 = 100.00% hasta

    hasta hasta hasta hasta 36.5

    43.5

    50.5

    57.5

    64.5

    Con respecto a los extremos reales de clase, por ultimo veamos un ejemplo:

    Supongamos que tenemos un examen de 10 preguntas que mide el aprovecha-miento. Sea X = numero de reactivos contestados correctamente. Si X = 0,tendramos el intervalo real [0.5, 0.5]. Los valores negativos de este inter-valo podran confundirnos un poco, pero lo que pasa es que la escala es deintervalo, no de razon: no hay un origen verdadero. Entonces, esos valoresnegativos no significan saber de menos; pueden significar saber algo.

    33

  • Medidas de tendencia central.

    CAPITULO 3: MEDIDAS DE TENDENCIA CENTRAL.

    La aptitud para la lectura al nivel del primer grado ha sido definida opera-tivamente como el puntaje de un cierto test. Dos grupos han sido sometidosa dicha prueba y sus puntajes se presentan abajo.

    Grupo A Grupo B

    62 56 50 69 64 5660 55 50 68 63 5660 55 48 68 62 5459 54 47 67 61 5458 53 40 65 60 5157 52 37 64 58 5057 51 32 64 58 48

    Se desea responder las siguientes preguntas:

    a) De cual grupo puede predecirse un mejor desempeno en tareas de lec-tura de 1er. grado?

    b) Si otros factores son iguales de que grupo puede esperarse un desempenomas homogeneo en tareas de lectura de 1er. grado?

    Se entiende que las respuestas a tales preguntas deben fundamentarse en ladefinicion operativa de la aptitud para la lectura; mas concretamente, en lospuntajes (datos) obtenidos.

    Si el test o prueba ha sido bien elaborado, cabe esperar que puntajes relati-vamente mas altos correspondan a mayores aptitudes para la lectura. As,el alumno que obtuvo el puntaje 62 debe ser probablemente mas apto queaquel que obtuvo 60 en el grupo B y por lo tanto cabe esperar que el primeralumno tendra mejor desempeno en tareas de lectura que el segundo. Ladificultad de responder a la pregunta (a), consiste en que debemos compa-rar grupos, y no alumnos individualmente. Es decir, si pudiesemos decidirque grupo (como una unidad) tiene el puntaje mas alto, ese grupo sera elque esperaramos que tuviese el mejor desempeno. Pero como podramosasignarle un puntaje (en base a los datos) a un grupo entero?

    Notemos en primer termino que lo que andamos buscando es un puntaje tpi-co o promedio que sea representativo de los puntajes de una cierta coleccion.Este puntaje tpico o promedio sera una medida de la aptitud del grupo ocoleccion. Sera una especie de centro de los datos.

    35

  • Medidas de tendencia central.

    A continuacion daremos diversos criterios para encontrar ese promedio, elcual en lenguaje tecnico es una medida de la tendencia central de los datos(o de la variable en cuestion).

    Como acabamos de anticipar, para una coleccion de datos (o valores de lavariable), existen varias medidas de su tendencia central; no puede decirse,en abstracto, que una sea mejor que otra, todo depende del contexto o delos intereses involucrados. A continuacion definimos e ilustramos las masempleadas:

    Moda. Si se tiene una coleccion de datos (no necesariamente numericos), lamoda es el valor mas frecuente de los datos. Por ejemplo, si los valores odatos son:

    A, A, B, B, B, B, C

    la moda es B.

    La moda puede no existir, por ejemplo, los datos A, B, C, R, no admiten moda.Tambien puede aceptarse que no es unica; por ejemplo, para los datos

    10, 9, 9, 8, 8, 8, 7, 7, 7, 6, 6, 5

    puede aceptarse que tanto 8 como 7 son modas.

    Algunas veces se impone el buen criterio al juzgar si existen varias modaso ninguna. As, para los datos del grupo A, tendramos 4 modas (a saber,60, 57, 55, 50) o bien ninguna. En este caso particular, sera mas prudenteoptar por la no existencia de la moda; se trata de 21 datos y los cuatro datoscandidatos a moda tienen cada uno solo una frecuencia de valor 2 (aparecendos veces cada uno).

    Cuando la escala de medicion esta solo al nivel nominal, la medida de ten-dencia central obligada, es la moda. Para ciertos fines especiales, aunque laescala sea de nivel superior al nominal, se utiliza tambien la moda. Paraun fabricante de ropa unitalla, la medida tpica o promedio mas adecuadasera la moda y en todo caso, la mediana y la media aritmetica (que veremosa continuacion) podran carecer de importancia como medidas tpicas de lasdimensiones de la ropa. Mas adelante, veremos un metodo para obtener lamoda en los casos como el del grupo A.

    Mediana. Si se tiene una coleccion de datos (no necesariamente numericos,pero s jerarquizados u ordenados) la mediana es el valor promedio de losdatos con respecto al orden. Es decir, la mediana es aquel valor que en lalista o coleccion es precedido o excedido por igual numero de datos.

    Por ejemplo, de una lista de calificaciones

    36

  • Medidas de tendencia central.

    B, C, A, A, B, B, C, B, B

    en la cual A es la maxima, le sigue B, etc., procedemos en primer termino aordenarla (en orden creciente o decreciente):

    A, A, B, B, B, B, B, C, C

    Se trata de 9 datos, as que, puestos en orden, el quinto (a saber, B) esprecedido y excedido por 4 en cada caso:

    A A B B B B B C C

    luego, en este ejemplo, la mediana es B.

    Cuando el numero de datos es impar, no habra problema en encontrar lamediana. El caso de numero par de datos, se trabaja como se muestra en losejemplos (o bien, se evita el numero par de datos).

    Si los datos son numericos, por ejemplo:

    1, 1, 2, 2, 2, 3, 3, 4, 5, 5

    en el cual tenemos diez datos, la mediana estara entre el quinto y el sexto:

    1, 1, 2, 2, 2, 3, 3, 4, 5, 5

    Pero como tal dato no existe, se toma la semisuma de los dos datos medios(a saber, el 2 y el 3):

    1, 1, 2, 2, 2 | 3, 3, 4, 5, 5 datos medios (resp. al orden)

    Mediana =2 + 3

    2= 2.5.

    Si en el numero par de datos, estos no tienen un caracter numerico, se eligecualesquiera de los dos puntos medios o se dice que esta entre ellos; porejemplo, para los datos

    A, A, B, B | B, C, C, Cno hay problema: mediana = B.

    Para los datos:

    A, A, B, B | C, C, C, Cla mediana puede ser B o C. O, si parece razonable, se puede decir que es

    37

  • Medidas de tendencia central.

    B C (algo intermedio entre B y C).

    Cuando la escala de medicion empleada esta al nivel ordinal, pero no masalla, conviene utilizar la mediana o la moda como medidas de tendenciacentral; preferiblemente la mediana, a menos que se tengan en mente finesde utilizacion muy particulares de la medida.

    Media aritmetica (o simplemente MEDIA). Si se tiene una coleccion de datos(necesariamente numericos), la media aritmetica es el cociente obtenido aldividir la suma de los datos entre el numero de ellos. Simbolicamente, silos datos son: X1,X2, . . . ,XN , la media aritmetica (o simplemente media)denotada X es:

    X =X1 +X2 + . . .+XN

    N

    Cuando la medicion esta al nivel de una escala de intervalo, se puede utilizarla media como medida de la tendencia central de los datos.

    En una tabla presentamos las posibles medidas de tendencia central segun elnivel de la escala de medicion

    Nivel de laescala

    Medida de tendenciacentral apropiada

    Nominal

    Ordinal

    Intervalo

    Razon

    Moda

    Mediana, moda

    Media, mediana, moda

    Media, mediana, moda

    Utilizando las medidas de tendencia central, podemos responder ahora lapregunta (a) formulada al principio de este captulo.

    Si los puntajes del test son una buena medida de la aptitud para la lecturaal nivel ordinal (i. e. si puntajes mas altos s garantizan mayor aptitud),las medianas de los puntajes de los grupos constituiran una buena medidapromedio de la aptitud de los grupos. Para el grupo A, la mediana es 54,mientras que para el B, es 61; luego, la aptitud del grupo B sera superior ala del grupo A y podremos esperar, por tanto, que el grupo B se desempenaramejor que el A en tareas de lectura de 1er. grado.

    38

  • Medidas de tendencia central.

    Si los puntajes del test son tan buena medida de la aptitud para la lecturacomo para asegurar un nivel de medicion de escala de intervalo (i. e. no solopuntajes mas altos garantizan mayor aptitud, sino ademas, un puntaje de 60corresponde a un alumno que excede en tanta aptitud a otro de puntaje 58,como este excede en aptitud a otro de puntaje 56, algo en verdad difcilde lograr en un test), podremos emplear las medias de los puntajes comoaptitudes promedios de los grupos. Tenemos

    XA =62 + 60 + 60 + + 37 + 32

    21=

    1093

    21 52.05

    XB =69 + 68 + 68 + + 50 + 48

    21=

    1260

    21 60.00

    Luego, puesto que XB > XA, la aptitud para lectura del grupo B es mayory cabe esperar del grupo B un mejor desempeno en tareas de lectura de 1er.grado.

    Mencionamos antes que no considerabamos que el grupo A tuviese moda.Por esta razon no ejemplificaremos con la moda para establecer el mejorgrupo en cuanto a la aptitud.

    Cuando se desea obtener la moda de una coleccion que no admite tal en formadirecta, se recurre a agrupar los datos en una distribucion de frecuencia.Para el caso de los puntajes de los grupos A y B, no se puede establecer unacategora o clase para cada puntaje posible (por obvias razones practicas);as que, se escogen clases que comprenden rangos de puntajes. He aqu unaposibilidad de clases para el grupo A (todas las clases se tomaron de igualtamano):

    GRUPO A

    Punto

    medio

    Clase(de puntajes)

    FrecuenciaFrecuencia

    relativa

    33

    40

    47

    5461

    30 36

    37 43

    44 50

    51 57

    58 64

    1

    2

    4

    9

    5

    21

    4.8

    9.5

    19.0

    42.9

    23.8

    100.0

    %

    %

    %

    %

    %

    t o ta l e s : %

    Similarmente para el grupo B:

    39

  • Medidas de tendencia central.

    GRUPO B

    Punto

    medio

    Clase(de puntajes)

    FrecuenciaFrecuencia

    relativa

    48

    53

    58

    6368

    46 50

    51 55

    56 60

    61 65

    66 70

    2

    3

    5

    7

    4

    21

    9.5

    14.3

    23.8

    33.3

    19.0

    99.9

    %

    %

    %

    %

    %

    t o ta l e s : %

    Notese que las clases en el grupo A (y en el B) tienen el mismo numero depuntajes (7 para todas las clases del A y 5 para todas las clases del B). Lafrecuencia de clase es, por supuesto, el numero de puntajes que caen en laclase dada. As, por ejemplo, hay dos puntajes de B comprendidos entre 46y 50, esto es, en la clase 46 50; estos dos puntajes son a saber, 48 y 50,como puede verse en la pagina 33. Los puntos medios de cada clase son loscentros de la clase. As, 48 es el centro de los puntajes comprendidos entre46 y 50:

    46, 47, 48

    centro (o punto medio de la clase)

    49, 50

    Si uno desea que el punto medio de la clase sea un puntaje posible, se debentomar clases con un numero impar de miembros (como es nuestro caso: 7 esel tamano de clase para el grupo A y 5 es el tamano de clase para el grupoB).

    Pero vayamos al punto: Notese que hemos marcado con una flecha cierta cla-se, tanto en la distribucion del grupo A como en la del B. Hemos precisamentesenalado las clases modales o sea las clases cuya frecuencia es maxima. As,la clase 51 57 es la clase modal del grupo A y la clase 61 65 la clase modaldel grupo B. Podemos tomar a los puntos medios (tambien llamados marcasde clase) como representantes de la clase. En nuestro caso, 54 y 63 son losrepresentantes de las clases modales de los grupos A y B, respectivamente.Los valores 54 y 63 pueden ser considerados como las modas de los gruposA y B. Si esto es as, tambien llegaremos a la misma conclusion (que conmedianas y medias) acerca de la respuesta a la pregunta (a) del principio deeste captulo.

    40

  • Medidas de tendencia central.

    Tal vez se ocurra pensar que este modo de determinar la moda dependa de-masiado de la eleccion de las clases. Es decir, arbitrariamente se eligieron5 clases para cada grupo (i. e. se hizo la distribucion de frecuencias de cin-co clases). Tal vez si hubiesemos tomados 6 clases o 4, tendramos modasdistintas.

    Para evitar modas tan fuertemente dependientes del modo de seleccionar lasclases, se recurre a dos cosas:

    (i) Hay que hacer buenas distribuciones de frecuencia (aunque no sea paracalcular la moda!).

    (ii) Para encontrar la moda se recurre no solo a la clase modal, sino tambiense toman en cuenta a las dos clases inmediatamente contiguas a ella.

    Para (i) se dan una serie de consejos al final de la pagina 28 del libro por Murray R. Spiegel de la serie Schaum, mismos quehan sido incorporados en el captulo anterior.

    Para (ii), se utiliza al histograma (nada mas las tres clases involucradas).Por ejemplo, para el grupo A:

    ..........................................................................................................................................................................................................................................................................................................................................................

    .........................................................................................................................................................................................................................................................................................................................................................

    .........................................................................................................................................................................................................................................................................................................

    ........................................................................................................................................................................................................................................................................................................

    P

    C |||||

    1|||||

    |||

    2|||

    .............................

    .............................

    .............................

    .............................

    L143.5 50.5 57.5 64.5

    C L A S E

    44 50CLASE MODAL

    51 57C L