TOMO I Estadística Descriptiva -...

77
¿ ¿DE QHABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA? TOMO IEstadística Descriptiva Alberto A. Alonso

Transcript of TOMO I Estadística Descriptiva -...

Page 1: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿

¿DE QUÉ HABLAMOS CUANDO

HABLAMOS DE ESTADÍSTICA?

TOMO I–Estadística Descriptiva

Alberto A. Alonso

Page 2: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...
Page 3: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS

CUANDO HABLAMOS DE

ESTADÍSTICA?

“Hay tres tipos de mentiras: mentiras, malditas

mentiras, y estadísticas”

Frase atribuida por igual al ex primer ministro británico

Benjamín Disraelí y al escritor y humorista norteamericano Mark

Twain.

Page 4: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...
Page 5: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

Toda obra grande, en arte como en ciencia,

es una gran pasión al servicio de una gran idea. Santiago Ramón y Cajal

¿DE QUÉ HABLAMOS

CUANDO HABLAMOS DE

ESTADÍSTICA?

TOMO I

Estadística Descriptiva

Alberto A. Alonso

Buenos Aires - Argentina

Alberto A. Alonso es Ingeniero Químico por la Universidad Nacional de La Plata,

posee una certificación internacional en Administración de Riesgos por ALARYS

y un curso de especialización en Estadística Descriptiva por el CONICET. En su

vida profesional, ha sido declarado “Experto en Temas de Ingeniería por el

Ministerio de Educación y Justicia de la Nación –Resolución D.N.A.U. Nº 86

del año 1987. Actualmente, es Profesor titular de Estadística Aplicada en el

IUPFA, para las Licenciaturas en Seguridad, Accidentología y Prevención

Vial, Trabajo Social, e Ingeniería en Siniestros.

Ver CV completo en: http:// www.anticiparconsultoria.com

Page 6: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

Fecha de catalogación: 14/11/2013

ISBN - Obra completa: 978-987-45197-0-2

ISBN - Primer tomo: 978-987-45197-1-9

Ediciones anticipar: http://www.anticiparconsultoria.com

Esmeralda 582 –Piso 8º Of. 30 – (C1007ABD) –Ciudad Autónoma de Buenos

Aires

Primera edición. Noviembre 2013.

© Alberto A. Alonso

Todos los derechos reservados.

Ninguna parte de esta obra puede ser reproducida o transmitida en cualquier

forma o por cualquier medio electrónico o físico, incluyendo fotocopiado, gra-

bación, escaneado, o cualquier otro sistema de archivo y recuperación de in-

formación, sin el previo permiso por escrito del autor.

Queda hecho el depósito que prevé la ley 11.723

Alonso, Alberto A. ¿De qué hablamos cuando hablamos de estadística? : tomo I: estadística descriptiva. 1ª. ed. - Ciudad Autónoma de Buenos Aires: Ediciones Anticipar, 2013. E-Book.

ISBN 978-987-45197-1-9

1. Estadísticas. I. Título CDD 310.4

Page 7: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

Corrección de estilo:

Trad. María Jimena Alonso

María Jimena Alonso es Traductora Pública Nacional y

Profesora en Lengua y Literatura Inglesas por la UNLP, y Correctora de Estilo por Fundación LITTERAE. Ac-

tualmente dirige la firma Glôssa Soluciones Lingüísticas (www.glossa.com.ar)

Page 8: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...
Page 9: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

Si te atreves a enseñar,

no dejes de aprender.

John Cotton Dana

Prefacio

Como siempre ocurre con el viejo dicho ―cada maestrito con su librito‖, todo

aquel que ama la enseñanza termina teniendo la

necesidad de expresar lo que sueña y enseña,

con sus propias formas y palabras.

Cada tema, sin alejarse de la verdad científica,

puede presentarse, explicarse, graficarse de

muy diversas formas, y esas formas dependerán

del docente que desarrolla el tema y de los

alumnos que lo reciben. Hasta para explicar al-

go tan simple como que dos más dos es cuatro,

existen infinitas formas de hacerlo, todas ellas

valiosas y ciertas. Que dos más dos es cuatro, puede explicarse aplicando la lógi-

ca simple, métodos visuales, hasta el rigorismo científico, y ello dependerá del

tipo de alumno o de la carrera en la cual tal alumno está inserto.

Lo mismo pasa con la Estadística. Puede basase en las rigurosas matemáticas, el

cálculo numérico y la teoría de conjuntos, o en la lógica sustentada en los sim-

ples conceptos matemáticos y geométricos que se estudian en el colegio secunda-

rio, sin olvidarnos de la magnífica regla de tres simple, aprendida durante el pri-

mario. Con el título De qué Hablamos cuando Hablamos de Estadística, el libro

se propone dos cosas:

Que algunas personas se interesen en conocer qué es y para qué sirve la

Estadística.

Explicar, mediante un diálogo amigable y una estructura lógica y ma-

temática sencilla, cómo se efectúa la recolección, ordenamiento, análisis

y representación de los datos, como herramienta fundamental de la Es-

tadística Descriptiva.

El texto, obviamente, está dirigido a todos aquellos que no son hábiles manejado-

res de las matemáticas o, dicho en otros términos, a los que se sienten seducidos

por las ciencias del comportamiento y, repentinamente, en un momento de sus

carreras, se deben enfrentar al estudio de la Estadística. Y esto es así porque, en

la actualidad, la Estadística es parte integrante de un amplio espectro de especia-

lidades del conocimiento. Explicarle y ejemplificarle al alumno que en algún

momento de su vida profesional deberá trabajar con datos es uno de los objetivo

de este libro.

Sin embargo, como docente, y ahora como autor, estoy convencido de que una

persona lee con atracción y desea comprender lo que lee solo si lo que lee le in-

Page 10: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

teresa. Por eso, quizás, la función más importante de un docente es despertar la

inquietud en los alumnos de su materia mediante un lenguaje simple ya que, co-

mo decía Séneca ―.El lenguaje de la verdad debe ser simple y sin artificios‖.

De allí, aquello tan antiguo y por ello no menos cierto, de que el mejor maestro

no es el que más sabe sino quien mejor transmite y estimula. Por eso, sintiéndo-

me del lado de los que no saben tanto pero le gusta transmitir y estimular, deseo

que este libro les guste, lo entiendan y lo puedan aplicar.

Si lo logro, me sentiré muy complacido por el tiempo que le he restado a otras

actividades para escribir este libro.

Finalmente, como hoy vivimos en la era de la comunicación y la edición virtual

lo permite, recibiré muy gustoso cualquier observación y sugerencia, la cual dará

lugar a conocer a un nuevo amigo/a y entablar un diálogo constructivo.

Cordialmente,

Alberto Adriano Alonso

La Plata, primavera del 2013

http://www.anticiparconsultoria.com

[email protected]

Agradecimiento

Les dedico esta obra a todos los que me quieren y confían en mí.

Reconocimiento

Aunque no lo conozca personalmente, deseo reconocer muy especialmente a

Adrian Paenza1, por coincidir totalmente con él, en el sentido de que las ciencias

deben enseñarse de manera sencilla con el fin que el estudiante las entienda y

también de una manera amena para que, además, comprenda su utilidad y aplica-

ción.

1 Adrián Arnoldo Paenza (n. Buenos Aires, 9 de mayo de 1949) es un periodista y doctor en

ciencias matemáticas por la Facultad de Ciencias Exactas y Naturales (UBA). Así describe su ca-

rrera uno de sus últimos libros (2010. Matemática... ¿Estás ahí? La vuelta al mundo en 34 pro-

blemas y 8 historias): "Nació en Buenos Aires en 1949. Es doctor en Matemáticas por la Univer-

sidad de Buenos Aires, donde se desempeña actualmente como profesor asociado del Departa-

mento de Matemática de la Facultad de Ciencias Exactas y Naturales. Es, además, periodista. Ac-tualmente es columnista especial de Página/12. Publicó en esta misma colección [Ciencia que la-

dra] los cuatro tomos iniciales de la serie Matemática… ¿estás ahí?, que han sido un éxito de

ventas en la Argentina, en otros países de Latinoamérica y también en Alemania y España, donde

se han editado los dos primeros episodios. Asimismo, sus libros han sido publicados (o lo serán

próximamente) en Rusia, Italia, República Checa, Brasil y Portugal. En 2007 recibió el premio

Konex de platino en el rubro ―Divulgación científica‖." En 2014 recibió el Premio Lilavati del

ICM por su labor en la divulgación de las matemáticas. Fuente: extractado de:

http://es.wikipedia.org/wiki/Adri%C3%A1n_Paenza

Page 11: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

CONTENIDO

Unidad Título Pág.

0 ¿De qué hablamos cuando hablamos de estadística? 1 I Hablando de estadística 11 II Conceptos básicos de medición y de matemáticas 35

III Recogida de información, recolección de datos e investiga-

ción estadística 57

IV Ordenamiento y organización de datos. La distribución de fre-cuencias

89

V Medidas descriptivas. Las medidas de posición 117

VI Indicadores de caracterización o descripción de muestras y

distribuciones. Los indicadores de tendencia central 137

VII Indicadores de caracterización o descripción de muestras y distribuciones. Las medidas de variabilidad

165

VIII Medidas descriptivas. Las medidas de forma 185 IX La curva normal 197 X La graficación en estadística 229 XI Regresión lineal 261 XII La correlación como medida de la relación 281

PROBLEMAS RESUELTOS 315

Unidad I 317 Unidad II 319 Unidad IV 321 Unidad V 327 Unidad VI 335 Unidad VII 343 Unidad VIII 351 Unidad IX 355 Unidad XI 363 Unidad XII 375

ANEXO DE TABLAS

Tabla I. Cuadrados; raíces cuadradas; inversos e inversos de la raíz

cuadrada para números del 1 al 200 383

Tabla II. Áreas bajo la curva normal 391 Tabla III. Funciones trigonométricas para ángulos comprendidos en el

primer cuadrante (entre 0º y 90º) 403

BIBLIOGRAFÍA 407

Page 12: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...
Page 13: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

1 | P á g i n a

El cero. Puede ser una suma de infinitos diferentes.

Valeriu Butulescu2

UNIDAD 0

DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA

Y comenzamos este libro por la Unidad 0 con el convencimiento absoluto y posi-

tivo de que el cero, más que un concepto abstracto de nulidad y carencia de atri-

butos, es sinónimo de punto de partida; de inicio y evolución. Se trata del cero

del cantautor español Ismael Serrano cuando, en su canción ―Kilómetro 0‖ nos

dice: ―…comienzo de los días que han de venir...‖ y se trata de un cero coorde-

nado.

Todo se inicia en un cero... como nuestros días.

Porque con este libro queremos que el lector intente transitar el camino del cono-

cimiento de la Estadística, pero mediante una nueva manera de verla y compren-

derla. Una estadística que, a decir de Butulescu, bien podría ser entendida como

la suma de varios infinitos diferentes.

2 Valeriu Butulescu. Nacido el 9 de febrero 1953, en el pueblo de Preajba, condado Gorj, Ruman-

ía, es un poeta, novelista, traductor y autor de aforismos. Es miembro de la Unión de Escritores

de Rumania. Fuente: http://ro.wikipedia.org/wiki/Valeriu_Butulescu

De qué Hablamos cuando Hablamos de Estadística pretende ser un libro que, a

través de un viaje ameno, cordial y amigable, nos lleve a recorrer las distintas esta-ciones de lo que se ha dado en llamar Estadística Descriptiva, una parte de la Es-

tadística que es muy común en todas las carreras de las Ciencias Sociales o Cien-

cias del Comportamiento, dirigidas a aquellas personas que sienten una mayor pre-

disposición por las ciencias blandas que por las denominadas ciencias duras. Y fue por este motivo que buscamos, empedernidamente, que el libro no sea repulsi-

vo hacia los números, ya que, si bien es imposible separar a la Estadística de las

Matemáticas, hay diversas maneras de enfocarlo. Los libros de Estadística dirigidos a las ciencias duras están llenos de fórmulas, derivadas, integrales y matemática de

conjuntos. En este libro buscamos que el lector razone y descubra que, a partir del

razonamiento, puede reemplazar, a veces, esas fórmulas atroces. Y cuando no sea posible y la fórmula irremediablemente deba estar presente, tratamos de presentarla

de la manera más amigable posible. Por eso queremos demostrar que la Estadística

no es una materia tan temible como muchos creen, pero, para que ello ocurra, nece-

sitamos que el lector haga un esfuerzo y deje atrás ese trauma que lo inhibe, en oca-siones, a aceptar que las Matemáticas no son seres horrendos y que lo sencillo no

está reñido con la seriedad académica.

Page 14: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

2 | P á g i n a

Porque la Estadística no es Matemáticas, aunque la utiliza. Si bien estudia el pa-

sado, no es Paleontología. Aunque nos permite predecir el futuro, no es Futuro-

logía. Y, si bien, nos permite tomar mejores decisiones, no es Decision Making.

Es la suma de todo y la diferencia de nada.

¿De qué hablamos cuando hablamos de Estadística?

Ya dijimos lo que no era la Estadística. Entonces, debemos tratar de explicar qué

es, por qué existe y para qué.

Muchas ciencias utilizan las Matemáticas sin que ello signifique que sean Cien-

cias Matemáticas en un sentido estricto. Es más, de algún modo, la Matemática

es una constante en nuestras vidas. Tan importantes son que, de alguna manera,

sintetizan para el vulgo a las Ciencias Duras, y los estudiantes, en su etapa del

secundario, ya van inclinándose hacia estas o hacia las Ciencias del Comporta-

miento, o Ciencias Sociales.

De alguna manera, aquellos que se dedican a las Ciencias del Comportamiento lo

hacen porque sienten a la vez temor y ―odio‖ hacia las Matemáticas.

Un temor que surge de la creencia de la existencia de algo desagradable y que no

pueden manejar. Es un algo que nos coloca en una posición incómoda. Y un odio

en el sentido de antipatía o aversión sin que necesariamente signifique un deseo

de mal hacia esa cosa llamada Matemáticas. Es el odio cariñoso del estudiante

hacia los números y las operaciones matemáticas.

Nuestra experiencia en la docencia nos ha enseñado que muchos alumnos que se

dedican a las Ciencias del Comportamiento, ante la menor presencia de las Ma-

temáticas se perturban de tal modo que cierran sus mentes. Se niegan a pensar.

Es como si produjeran en ellos una cierta repulsión.

Y es entonces allí donde debe emerger la figura del docente. Una función que,

como siempre le decimos a nuestros alumnos, no consiste en dar clases y califi-

car, sino en enseñar. En colocar todo el esfuerzo y empeño para lograr que el

alumno comprenda el por qué y el para qué de lo que se enseña. Porque solo en

ese momento la función del profesor se está realmente cumpliendo.

Estas cosas, de alguna manera, nos están explicando el motivo y la necesidad de

lograr una enseñanza de la Estadística que no produzca repudio en el estudiante

y, de alguna manera, están dando sentido a este libro. Y por eso debemos colocar

a la Estadística en primer lugar y a las Matemáticas en un segundo escalón, estas

últimas solo como herramienta de cálculo de los grandes conceptos de la Estadís-

tica.

La ciencia y las artes tienen sus ―materias primas‖ La Medicina tiene al hombre;

la Ingeniería, a los materiales; la Música, a los sonidos; la Pintura, a los colores;

la Poesía, a los bellos sueños y la Estadística, a los encantadores datos.

Page 15: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

3 | P á g i n a

Por eso, la mayoría de los autores definen a la Estadística como la ciencia que se

ocupa de la recolección, análisis e interpretación de tales datos. A primera vista,

podríamos decir: qué pobre misión tiene la Estadística en este mundo. Pero la

misión no nace de la misión misma, sino en la utilización de la misión, en la ut i-

lización de los datos, datos que en sí mismos son casi nada y son, a la vez, un to-

do.

Los datos son símbolos que describen un objeto, condición o situación. Cinco ki-

logramos, 7 segundos ó 120 mm de presión arterial son solo datos. Pero la es-

tructura de datos sirve de base para el desarrollo y medición de la información.

Cinco kilogramos es un dato, pero la cantidad de kilogramos que soporta el cable

que mueve a los ascensores es información.

Siete segundos es un dato temporal, pero la cantidad de tiempo que empleó el

maratonista en recorrer el circuito es información. Ciento veinte mm de presión

arterial es solo un dato, pero la presión arterial óptima de cada persona es infor-

mación.

De alguna manera, la información es un conjunto organizado de datos, que cons-

tituye un mensaje sobre un cierto fenómeno o ente.

Y, en un paso posterior, podemos decir que el intercambio de información cons-

tituye la comunicación.

Entonces, la Estadística, que -a partir de esos diminutos y preciosos datos nos

permite describirlos, agruparlos, merituarlos y, posteriormente, efectuar predic-

ciones -es una transformadora de datos en información, una información que en

un mundo global y comunicado nos permite tomar decisiones.

¡Vaya! Ya vamos entendiendo algo más de esta Estadística que de Matemáticas

tiene muy poco y de sentido común mucho.

Transformar datos en información es lo que le da sentido a esta disciplina. Es su

motivo de ser. Utilizar esa información en el marco del conocimiento para tomar

decisiones es su misión.

¿Para qué desea un ejecutivo saber el comportamiento de las ventas de un pro-

ducto si no es para tomar alguna decisión? Decisión que tanto puede ser no hacer

nada como hacer algo. Ambas, decisiones al fin.

¿Para qué desea un turista saber el pronóstico del tiempo en un determinado lu-

gar si no es para tomar una decisión? ¿Para qué desea un productor rural conocer

las predicciones climáticas y del mercado si no es para tomar una decisión?

Y todas esas decisiones se basan en la información y la información se basa en

los datos. La administración de los datos, que es la materia prima de la Estadísti-

ca o su metier, muchas veces se basa en desarrollos matemáticos; de allí que al-

gunos definan a la Estadística como una ciencia. Y esta interpretación es bastante

cierta, dado que la prueba de hipótesis dentro de la Inferencia Estadística se sus-

Page 16: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

4 | P á g i n a

tenta en el método científico.

Pero, muchos indicadores y muchos coeficientes que a menudo se utilizan con

fines de clasificación, tienen orígenes empíricos no demostrables matemática-

mente, pero sustentados en la realidad. De allí que muchos hablen de la Estadís-

tica como un arte: El arte de administrar esos datos.

Ciencia y arte. Arte y ciencia. Dos conceptos que no solo subyacen en la Estadís-

tica, sino en muchísimas ramas del conocimiento.

¿Vamos entendiendo, entonces, de qué hablamos cuando hablamos de Estadísti-

ca?

La Estadística y las Ciencias del Comportamiento

Cualquier estudiante, cuando se inicia en el estudio de alguna carrera del área so-

cial, biológica o médica, con algo de ingenuidad cree que nunca más se cruzará

con las Matemáticas. Es por eso que, cuando la Estadística aparece en su vida,

puede llegar a sentirse algo desanimado.

En Psicología, en Sociología, en Trabajo Social, en Ciencias de la Seguridad,

etc., la Estadística, si bien no forma parte del conjunto de materias clave, sí ocu-

pa un lugar preponderante. Como los alumnos no saben a ciencia cierta cuál es el

campo de actuación de su carrera antes de recibirse, la mayoría cree que la Es-

tadística es una materia de relleno dentro de su plan de estudio. Tampoco están

muy abiertos a escuchar opiniones en contrario, en el sentido de que el tiempo

les demostrará que están equivocados.

Un estudiante de Biología puede estar muy interesado en entender cómo funcio-

na un organismo vivo, pero, si luego quiere comprender el comportamiento de

toda una especie, deberá realizar predicciones. Estas predicciones no se logran

estudiando el comportamiento de cientos o miles de esos organismos, sino de

unos pocos cuidadosamente seleccionados. Y es allí cuando el profesional se to-

pa con la investigación experimental y comienza a reconocer la importancia, no

solo de la Estadística Descriptiva sino, también, de la Estadística Inferencial.

En el área de la Seguridad y, más precisamente, en la Administración de Riesgos,

sería imposible estudiar todos los cuándo, los cómo, los dónde y los por qué, re-

lacionados con el evento siniestral. Por eso, más que datos aislados, necesitamos

estudiar estadísticas siniestrales para establecer medidas de tendencia central y

de dispersión con respecto a esa tendencia central. Y, nuevamente, la Estadística

se hace presente en la vida del administrador de riesgos.

Con el correr de los años, el profesional va aprendiendo que los datos aislados

como tales tienen poco valor. Primero, porque resultan difíciles de analizar y, se-

gundo, porque a casi nadie le interesan como tales. La gente no necesita datos,

requiere información. Es decir, datos elaborados.

Page 17: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

5 | P á g i n a

Otro ejemplo se da en el área de la Política. Muchas veces, los legisladores colo-

can un tema en la agenda social con el fin de ir recibiendo la opinión de los ciu-

dadanos, pero, cuando más que datos necesitan información, solicitan la realiza-

ción de encuestas que muestran con mayor rigor la opinión de la gente. Algo si-

milar sucede en momentos electorales.

Vamos viendo cuán equivocados estaban los estudiantes cuando creían que nun-

ca más se iban a topar con los benditos números dado que habían tomado la deci-

sión de no estudiar carreras relacionadas con las ciencias duras.

César Vedani, en su admirable tango ―Adiós muchachos‖, refiriéndose a la fata-

lidad del destino, dice: ―…contra el destino nadie la talla‖.

Por eso, en el más allá de las Ciencias Sociales, nos guste o no, está la Estadísti-

ca. Las enfermedades, la vida y la muerte, los accidentes, la producción, la co-

mercialización, el delito, por nombrar solo algunos eventos, están regidos por la

aleatoriedad y descriptos por la Estadística. La aleatoriedad como cualidad de lo

aleatorio se refiere a todo aquello que no puede ser manejado por el hombre y

que depende de la suerte, del azar o de algún suceso fortuito e incierto.

El término aleatoriedad tiene dos orígenes:

En su origen latino, el término alea deriva de los antiguos juego de azar practica-

dos desde siempre por el hombre o del azar como el hecho casual, el riesgo, la

suerte o la fortuna.

Desde un origen árabe, por azhar se entiende el dado para jugar.

Tampoco podemos dejar de recordar la vieja locución latina Alea jacta est o Alea

iacta est a la que el paso del tiempo no le ha hecho mella y que significa el dado

fue lanzado la suerte está echada, recordando, de algún modo, la fatalidad del

destino a la que se refería Vedani en su tango.

Azar, riesgo o incertidumbre son situaciones que, de algún modo, gobiernan

nuestras vidas y que influyen en el comportamiento de las sociedades, y que la

Estadística se ha encargado de analizar o, al menos, describir.

Del dato a la información y a la toma de decisiones

Pasar del dato a la información es como pasar de la Estadística Descriptiva a la

Inferencial. Paso a paso, iremos viendo estos conceptos en profundidad.

Por ahora, nos interesa analizar esta transición como la mayor utilidad de la Es-

tadística.

Si el azar existe, si el riesgo existe y si el riesgo es incertidumbre, el tomador de

decisiones jamás conoce la verdad. A lo máximo, puede conocer la verdad es-

tadística.

Continúa ....

Page 18: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

6 | P á g i n a

La Estadística es una ciencia que demuestra

que si mi vecino tiene dos coches y yo ninguno,

los dos tenemos uno.

George Bernard Shaw3

UNIDAD I

HABLANDO DE ESTADÍSTICA

De la misma manera que para saber de carpintería es necesario conocer las made-

ras y sus orígenes, para ir entendiendo a la Estadística, también, debemos comen-zar conociendo sus orígenes y a sus principales impulsores. Veremos a lo largo de

la unidad que esta especialidad nació como una necesidad de los Estados, pero que

rápidamente fue comprendida y abrazada por las tres áreas más importantes de la actividad económica: el comercio, las finanzas y el seguro. Muy sucintamente ve-

remos también las distintas escuelas que surgieron en el largo camino de la

búsqueda de la verdad estadística. Comenzaremos a conocer a hombres de la talla de Pearson, Neyman y Fisher, quienes constantemente irán reapareciendo a lo lar-

go de las páginas de este libro.

Los orígenes de la teoría de la probabilidad que nació de la mano de personalida-

des de la ciencia como Bernoulli, Pascal, De Moivre, Poisson, Gauss y Laplace no podía falta en este resumen.

Como en toda ciencia o arte, el objetivo de esta unidad es estudiar el pasado.

Desde épocas muy lejanas, casi remotas, el hombre ha utilizado las herramientas

cuantitativas que tenía a su alcance para trabajar con los datos que eran impor-

tantes para él en el marco de su entorno y en el manejo de su precaria economía.

En sus orígenes, la Estadística se relacionó con las técnicas apropiadas para el

conteo, para lo cual se utilizaban como unidades trozos de ramas, piedras y cual-

quier elemento que asegurara la integridad temporal de la anotación. Con el ini-

cio de las primeras pictografías, los pictogramas también resultaron de utilidad

para el conteo.

Numerosos autores, al hablar sobre el origen de la Estadística, recuerdan al histo-

3 George Bernard Shaw. (Dublín, 1856 - Ayot Saint Lawrence, Reino Unido, 1950) Dramaturgo

y periodista irlandés. Perteneciente a una familia de la burguesía protestante irlandesa, empezó a

trabajar a los dieciséis años, por lo que terminó su formación de modo autodidacto. Cuando sus

padres se separaron fue a vivir a Londres con sus hermanas y su madre, que era profesora de música (1876). En los años siguientes trabajó como periodista y crítico teatral y de música para

diversos periódicos, al tiempo que publicaba novelas por entregas, si bien sin éxito; sus ingresos

eran muy parcos, por lo que vivió en una relativa penuria.

Fuente: http://www.biografiasyvidas.com/biografia/s/shaw.htm

Page 19: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

7 | P á g i n a

riador Tácito4, al cual el emperador Augusto

5 le habría encomendado realizar una

encuesta completa sobre los bienes del imperio romano, incluyendo a su gente.

Así, la encuesta abarcaba a los soldados, armas, carros, embarcaciones y anima-

les, además de la ―renta pública‖ del imperio.

LA ESTADÍSTICA Y SU SIGNIFICADO

La Estadística no tiene un único origen, se llega a ella por la confluencia de va-

rios esfuerzos en el mismo sentido.

Primitivos trabajos en latín se referían a este término aunque con ciertas varian-

zas. En el latín moderno, se mencionaba al statisticum collegium como un ―con-

sejo de estado‖ mientras que, en un latín más antiguo, se hablaba de status como

―posición‖ o ―forma de gobierno‖.

Para los italianos, la Estadística deriva del término moderno statista (―estadista‖,

―político‖) y del italiano antiguo stato (―estado‖).

En Alemania, el economista Gottfried Achenwall, a principios del siglo XVIII,

usa el término Statistik en su libro titulado ―Staatswissenschaft der vornehmen

Europäischen Reiche und Republiken‖ (La ciencia política para los reinos euro-

peos y las repúblicas). Allí, utilizaba la palabra estadística para designar el análi-

sis de los datos de un gobierno y de forma algo arrogante la definía como la

―ciencia del Estado‖.

En Escocia, también en el siglo XVIII, Sir John Sinclair utiliza el término es-

tadística en su trabajo ―Statistical Account of Scotland‖ (Estadística del estado

de cuenta de Escocia). En su voluptuoso trabajo que consta de 21 volúmenes,

Sinclair revela que adoptó la palabra estadística a partir de investigaciones reali-

zadas en Alemania, en el sentido que sería una palabra novedosa que deslum-

braría a los ingleses. Sin embargo, el objetivo de Sinclair en la utilización del

término sería distinto y quizás aquí radique la novedad, ya que, mientras en

Alemania la estadística se utilizaba como un instrumento para medir la fortaleza

de un estado, el escocés entendía que podía ser utilizada como una herramienta

de revisión y control, ya que habría de generar un importante flujo de informa-

4 Tácito. (Roma?, h. 55-?, h. 117) Historiador romano. Los pocos datos que se conocen de su vida

indican que desarrolló una brillante carrera política, que le llevó al Senado, así como también a

ejercer el cargo de cónsul. Fuente:

http://www.biografiasyvidas.com/biografia/t/tacito.htm 5 Octavio Augusto (Cayo Julio César Octavio): primer emperador romano ( 63 a. C. - Nola,

Nápoles, 14 d. C.). Procedía de una rica familia del orden ecuestre de Veletri (su abuelo fue ban-

quero y su padre, pretor de Macedonia). Por parte de madre, era sobrino-nieto de Julio César, el

cual lo adoptó en el año45 a. C. y lo designó su heredero.

Fuente: http://www.biografiasyvidas.com/biografia/a/augusto.htm

Page 20: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

8 | P á g i n a

ción interna que, a su vez, sería de mucho provecho para descubrir fallas o debi-

lidades y proponer mejoras en su país.

Con el correr de los años, esta ciencia nueva y novedosa se va expandiendo y pa-

ralelamente su significación se va encaminando lentamente hacia la acepción

con que hoy se la conoce: la ciencia que se ocupa de la recolección y clasifica-

ción de cualquier tipo de datos cuantitativos.

Otro de los motivos de la rápida aceptación de la Estadística fue que esta joven

ciencia receptó y utilizó la idea de William Playfair acerca de que los gráficos

permiten una comunicación más eficiente que la información escrita en forma de

tablas. Playfair es considerado como el inventor de los gráficos lineales, de ba-

rras y de sectores, a partir de la publicación, en el año 1786, de su libro titulado

The Commercial and Political Atlas (Atlas comercial y político) y, en el año

1801, de Playfair’s Statistical (Breviario de Estadística de Breviary Playfair). En

la actualidad, no se concibe el análisis de datos sin su correspondiente ilustra-

ción.

De la primitiva idea de recolección y análisis de datos, se fue llegando a la idea

del tratamiento e integración de los datos. Fue Sir Francis Galton, un inglés cu-

rioso y estudioso por naturaleza, primo de Darwin y amigo de Karl Pearson,

quien introdujo el concepto estadístico de regresión lineal y correlación, que

permitió convertir conjuntos de datos apareados en relaciones matemáticas, lo

cual le dio a la Estadística un impulso impensado. A partir de allí, fue el primero

en aplicar métodos estadísticos para estudiar las diferencias humanas basados en

el uso de cuestionarios y entrevistas para la recogida de información.

Herman Hollerith, un estadounidense pionero de la computación, desarrolló la

primera máquina tabuladora basada en tarjetas perforadas y mecanismos eléctri-

co-mecánicos para el tratamiento veloz de cantidades enormes de datos. Con el

avance de la computación, la Estadística cobró un inusitado impulso, pues el ma-

nejo de datos que requería de enormes esfuerzos e ingentes cantidades de tiempo

se redujo a una tarea sencilla y rápida.

En la actualidad, no hay campo del conocimiento, se trate de ciencias duras o so-

ciales, que no utilicen a la estadística como herramienta, no solo para el trata-

miento de datos, sino para su logro más preciado, la inferencia estadística.

Así, por ejemplo, Major Greenwwod (1880-1949), quien investigó los problemas

de salud asociados al trabajo en fábricas, desarrolló la Epidemiología y en 1919

creó el Ministerio de la Salud en Inglaterra, responsable de datos estadísticos

médicos.

Investigadores como Karl y Egon Pearson, Gossett, Neyman y, especialmente,

Ronald Fisher, colaboraron con todo su empeño y tesón en el desarrollo de la Es-

tadística en variados campos. En tal sentido, se le reconoce a Fisher sus logros en

Page 21: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

9 | P á g i n a

la aplicación de la Estadística en áreas relativamente nuevas, como la Genética,

la Biología y la Agronomía, lo que le valió ser considerados por algunos de sus

colegas como el padre de la Estadística moderna, aunque siempre tales denomi-

naciones, si bien merecidas, pueden dejar afuera a otros valiosos impulsores de

esta ciencia.

Estadística: ¿ciencia o disciplina? Más allá de si la Estadística es una ciencia o no, lo cual nos parece una cuestión me-

nor y que podemos dejárselo para que lo resuelva la filosofía científica, lo que sí es

bastante cierto es que la Estadística es en sí misma una disciplina, por cuanto se trata

de un conocimiento riguroso y sistemático referido a una materia concreta. Como en

toda disciplina, hay quienes han trabajado en el desarrollo de principios y lineamien-

tos metodológicos que forman parte de la teoría de la Estadística que, aunque utiliza

como soporte a las matemáticas, dista mucho de ser Matemática.

Otros han impulsado el desarrollo de esta disciplina a través de su inserción en

otras áreas del conocimiento a manera de herramienta. Así, podemos mencionar

su aporte a la sistematización del método científico, al diseño y análisis de expe-

rimentos, a estudios epidemiológicos, climatológicos, macroeconómicos, por

nombrar solo algunos, y, más recientemente, fundamentalmente a partir del desa-

rrollo de las ciencias informáticas, al diseño de los sistemas de información, al

manejo de datos, censos y encuestas.

Por otro lado, el campo de sus aplicaciones es tan amplio que existe una tenden-

cia incorrecta a incluirla parcialmente dentro de otras disciplinas. Además, las di-

ferentes definiciones que de ella se efectúan, la ponen en contextos que van des-

de el propio al utilitario, pasando por el matemático y el social. Para Karl Pear-

son, la Estadística era una ciencia abstracta con derecho propio, relacionada con

todas las ciencias, más allá de los estudios sociales y actuariales a los cuales es-

taba restringida. Para Harald Cramer, la Estadística investiga la posibilidad de

extraer de datos estadísticos inferencias válidas, elaborando los métodos median-

te los cuales se pueden obtener dichas inferencias6.

Y hablando de taxonomía estadística, también nos encontramos con posiciones

bastante distantes. La UNESCO la clasifica dentro de las Ciencias Sociales, pero

algunas otras entidades, como por ejemplo FONDECYT7, la incluyen dentro de

la Matemática y a esta dentro de las Ciencias Exactas y Naturales.

6 Fuente: Revista Universitaria Nº XXV, año 1988, Universidad Católica de Chile.

http://dta.utalca.cl/estadistica/documentos/articulo4.pdf 7 FONDECYT: Fondo Nacional de Desarrollo Científico y Tecnológico, Chile.

Page 22: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

10 | P á g i n a

Como sea, estamos hablando de la ciencia de la recolección y análisis de datos

para la toma de decisiones, ya que, a partir de la inferencia estadística, transfor-

ma datos en información.

LA ESTADÍSTICA COMO BASE FUNDACIONAL DE LOS ESTADOS

La Estadística fue muy bien comprendida desde antiguo por los gobernantes co-

mo una forma de conocer los bienes de sus súbditos, con el fin de ser aplicada al

cobro de los impuestos, ya que, en los imperios, las ciudades y territorios con-

quistados estaban sujetos a impuestos cuyo pago era hecho, o bien con dinero, o

con productos, como por ejemplo parte de las cosechas.

No es difícil advertir, entonces, que uno de los deseos de la conquista por parte

de los antiguos emperadores no era solo adueñarse de las tierras, sino de la re-

caudación de los impuestos. Sin embargo, a medida que las extensiones de tierras

conquistadas crecían, la complejidad en la recaudación del impuesto marchaba

en el mismo sentido. Los campos se medían, los árboles se enumeraban y señali-

zaban, y las personas y los animales de todo tipo se registraban. Cada tanto se

obligaba a las familias enteras a concurrir a las plazas, donde se los invitaba a

denunciar sus bienes y, si se observaba cierta reticencia, se pasaba a la incitación

y también a la tortura, para que los ciudadanos declararan sus pertenencias.

Con el correr del tiempo y el consecuente avance social, los métodos también se

fueron perfeccionando.

En Roma, su inigualable organización política, jurídica y administrativa favore-

ció el desarrollo de la Estadística. Por ejemplo, ya cinco siglos a.C., se realizaba

el census, que consistía en una lista que Servio Tulio8 ordenó practicar cada cin-

co años y en la que se incluían el nombre, edad, cualidad y profesión de los habi-

tantes, sus mujeres e hijos. Posteriormente, se incluyeron los esclavos y una indi-

cación sobre sus bienes, con el fin de conocer la riqueza de los ciudadanos.

Estos censos pasaron a ser base constitucional del gobierno. También, en un

Continúa...

8 Servio Tulio fue el sexto rey legendario de la Antigua Roma durante la Monarquia Romana y el

segundo rey de la dinastía Etrusca. Las fechas tradicionales de su reinado son de 578-535 antes

de Cristo. Según la tradición era originario de Vulci e hijo de una sierva llamada Ocresia (de ahí

Servius), se dice que se habría casado con una hija de Lucio Tarquinio Prisco, Y lo sucedió des-pués de que éste fuera asesinado en el año 579 antes de Cristo. Él fue el primer rey de llegar al

poder sin consultar a la población conformada por los plebeyos, Habiendo ganado el trono por el

artificio de Tanaquil, esposa de Lucio Tarquinio Prisco.

Fuente: http://www.historialuniversal.com/2009/12/servio-tulio-rey-roma-monaquia-

reforma.html

Page 23: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

11 | P á g i n a

Si puedes medir aquello de lo que hablas,

y si puedes expresarlo mediante un número,

entonces puedes pensar que sabes algo;

pero si no lo puedes medir,

tu conocimiento será pobre e insatisfactorio.

Sir William Thomson (Lord Kelvin) 9

UNIDAD II

CONCEPTOS BÁSICOS DE MEDICIÓN Y DE MATEMÁTICAS

Medir, describir e inferir son las principales tareas de un profesional de la Estadís-tica.

Medir, con la importancia que le daba Lord Kelvin. Conocer las distintas escalas de

medición. Entender que un número es más que una cifra, que él y su entorno nos van introduciendo en las tranquilas aguas de las Matemáticas y del Cálculo Numérico

de un modo amigable y armonioso.

Veremos, también, en esta unidad, el concepto de notación matemática tan utilizado

en Estadística y algunas operaciones algo nuevas, pero no por ello complicadas, pa-ra finalizar con la ecuación de la recta. Una recta que no es un límite ni una mura-

lla, sino una recta prodigiosa, porque nos permitirá efectuar predicciones que, a su

vez, nos permitirá tomar decisiones, es decir, nos permitirá cumplir con la finalidad de la Estadística.

Rompemos con los mitos de la tenebrosa Matemática. Esas pocas operaciones nove-

dosas más los conceptos básicos que el lector trae del colegio secundario es todo lo

que hay que saber para trabajar con las técnicas estadísticas. Nada más. Queremos que el lector, al finalizar esta unidad diga: “Si esto es todo lo que tengo

que saber de Matemáticas… ¡Sigamos adelante!”

Dado que la Estadística se basa en el conteo y medición de los datos, repasare-

mos algunos conceptos básicos que utilizaremos a través de las distintas unida-

des.

9 WILLIAM THOMSON, PRIMER BARÓN KELVIN, OM, GCVO, PC, FRS (Belfast, Irlanda

del Norte, 26 de junio de 1824 - Largs, Ayrshire, Escocia, 17 de diciembre de 1907) fue un físico

y matemático británico. Kelvin se destacó por sus importantes trabajos en el campo de la termo-

dinámica y la electrónica gracias a sus profundos conocimientos de análisis matemático. Es uno de los científicos que más hizo por llevar a la física a su forma moderna. Es especialmente famo-

so por haber desarrollado la escala de temperatura Kelvin. Recibió el título de barón Kelvin en

honor a los logros alcanzados a lo largo de su carrera.

Fuente: http://es.wikipedia.org/wiki/William_Thomson

Page 24: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

12 | P á g i n a

VARIABLES DISCRETAS Y CONTINUAS

Una variable que teóricamente puede tomar cualquier valor entre dos valores da-

dos se llama variable continua. También podemos decir que una variable conti-

nua es aquella que, entre dos valores, siempre acepta uno intermedio y así suce-

sivamente.

Por el contrario, aquellas variables que no aceptan valores intermedios entre dos

variables se llaman discretas.

En general, las medidas dan origen a datos continuos, mientras que las enumera-

ciones o conteos originan datos discretos.

Son ejemplos de variables discretas:

La cantidad de hijos que tiene una familia.

La cantidad de bienes que poseemos.

La cantidad de días que tiene un determinado período.

La cantidad de miembros de un equipo.

Etc.

Son ejemplos de variables continuas:

La altura de las personas u objetos.

La producción agrícola.

Los gastos de una empresa.

El consumo de electricidad.

El peso de un objeto.

Etc.

Dependiendo del tipo de unidades de medida y de sus restricciones, las variables

pueden mutar. Por ejemplo, en la evaluación del aprendizaje, se puede tomar una

escala de valores cuantitativos entre 0 y10.

Si se trabaja con una posibilidad ilimitada de fracción de decimales, la califica-

ción obtenida por cada participante se corresponderá con una variable continua.

Sin embargo, si se trabaja con evaluaciones en números estancos, la calificación

se transforma en una variable discreta. Pero, si el aprendizaje se evalúa mediante

una escala conceptual, la calificación se transforma en una variable cualitativa

nominal.

Valores de una variable

Page 25: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

13 | P á g i n a

Los valores de una variable pueden ser:

Valores cuantitativos: Estos valores representan cantidades numéricas y

pueden corresponder a una variable continua o discreta, según se admitan

o no fracciones decimales, sin o con restricción.

Valores cualitativos: Los valores cualitativos representan valores concep-

tuales que pueden ser ordenados en una escala convencional. Correspon-

den siempre a variables discretas porque los conceptos están representan-

do valores estancos.

Por ejemplo, el color en el espectro solar es una variable que puede tomar los va-

lores rojo, naranja, amarillo, verde, azul, índigo y violeta, es decir, valores cuali-

tativos.

Lo mismo sucede con el tamaño de un objeto cuando se clasifica según rangos

como pequeño, mediano o grande. También puede suceder con la calidad de un

producto o servicio cuando se clasifica según rangos como malo, aceptable, bue-

no o muy bueno.

Muchas variables adoptan valores cuantitativos, como ser el peso, la longitud, el

tiempo, etc.

Por ejemplo, durante una prueba automovilística en una zona desértica se puede

leer el siguiente relato ―Para recorrer una distancia de 35,6 km, la camioneta de

Pedro Car, que pesaba 1.970 kg, demoró un tiempo de 75 minutos‖.

EJEMPLO DE VARIABLES

Descripción de la variable Tipo

Cantidad de prendas vendidas cada día en un local comercial. discreta

Temperaturas registradas cada media hora en un observatorio. continua Tiempo de duración de las cubiertas de un automóvil. continua

Cantidad de entradas vendidas para un clásico de futbol. discreta

Cantidad de empleados de una firma. discreta

Cantidad de alumnos inscriptos para la carrera de Estadística. discreta

Duración de la pilas de un audífono. continua

LÍMITES REALES DE UNA VARIABLE CONTINUA

Como ya hemos visto, una variable continua es la que puede adoptar cualquier

valor dentro de un intervalo específico de valores. Veamos un ejemplo para lo

cual utilizaremos el peso de una señorita que cuida mucho su figura.

Page 26: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

14 | P á g i n a

Supongamos que la señorita se pesó el domingo anterior a su cumpleaños. La es-

cala de la balanza electrónica es la que se muestra en la figura II.1 y tiene una

precisión de un kilogramo. El peso que la señorita registró cuando el fiel de la

balanza se encontraba en el punto B fue de 60 kg y así lo indicó el ticket corres-

pondiente. Tres días después, la señorita se pesa

nuevamente y nota que el fiel se había corrido

hacia la derecha, a la posición C. Piensa que había

engordado pero cuando aprieta el botón de la ba-

lanza sale un ticket que nuevamente le indica que

pesa 60 kg.

Otro día el fiel estaba en la posición A y la balanza

informó 59 kg y el día en que el fiel estuvo en la

posición D, la balanza informó 61kg.

Pareciese que existe una diferencia entre el peso

real mostrado por el fiel de la balanza y el informa-

do por la balanza en su ticket. Surgen de lo relata-

do, al menos, dos preguntas:

¿Por qué dos pesos diferentes son informados por la balanza como igua-

les?

¿Cuál es la posición del fiel que hace variar el peso informado por la ba-

lanza?

La respuesta está relacionada con la posición relativa del fiel con respecto al

punto medio entre dos unidades sucesivas. Entre 59 y 60 kg, el centro es 59,5 y,

entre 60 y 61 kg, el centro es 60,5 kg.

La respuesta a la primera de las pregunta es que la balanza electrónica está pro-

gramada para emitir información del peso solo en números naturales.

La respuesta a la segunda pregunta está relacionada con la posición relativa del

fiel de la balanza. Cuando está a la derecha de un punto medio en la escala de

medición, el peso emitido es el correspondiente a la unidad superior; pero, cuan-

do el fiel se encuentra a la izquierda del punto medio, el peso emitido correspon-

de a la unidad inferior.

Cuando el fiel se encuentra exactamente en el centro entre dos unidades sucesi-

vas, la balanza emitirá un peso que se corresponderá con la unidad anterior o

posterior según las reglas de redondeo que veremos más adelante.

Así, cada vez que se registre el peso de 60 kg, esto no quiere decir que el peso de

la señorita sea exactamente de 60 kg, sino que el peso está entre 60 ± 0.5 kilo-

Page 27: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

15 | P á g i n a

gramos. No conocemos el valor exacto del peso, pero estamos seguros de que se

encuentra en el rango de 59,5- 60,5. Este rango especifica los límites reales del

peso de 60 kilogramos. El valor 59,5 se denomina límite real inferior mientras

que el valor 60,5 es el límite real superior.

Los límites reales de una variable continua son aquellos valores que están por

arriba y por debajo de los valores registrados, a una distancia que es igual a la

mitad de la unidad de medida mínima en la escala.

Por ejemplo, si la variable es el peso de la señorita, la menor unidad es el kilo-

gramo, y registramos 60 kilogramos cada vez que los límites reales estén arriba y

abajo de 60 kilogramos en medio kilogramo. A decir verdad, los límites reales

son 59,500000... y 60,499999..., pero no es necesario ser tan precisos. La Tabla

II.1 muestra algunos ejemplos.

Tabla II.1. Ejemplo de límites reales de una variable continua

Unidad mínima de medición

Valor registrado de la variable

Límite real inferior

Límite real superior

0,01 60,00 59,995 60,005

0,1 60,0 59,95 60,05

1 60 59,5 60,5

10 60 55 65

100 600 550 650

Cifras significativas de una variable

En Estadística descriptiva, principalmente trabajamos con gran cantidad de da-

tos. Muchas veces, estos datos son números naturales, pero, cuando operamos

con ellos, por ejemplo, al realizar un cociente o una raíz cuadrada, el resultado es

un número fraccionario.

Dado que, en los cálculos estadísticos, si bien realizamos operaciones matemáti-

cas, su objetivo es marcar una tendencia, la exactitud matemática no es tan nece-

saria. Qué diferencia conceptual existiría si dijésemos que después de realizar

una encuesta la tendencia de los encuestados indica que el candidato Juan Padrón

obtendría el 37,82% de los votos, o que dijéramos que obtendría el 37, 8 % de

los votos, o simplemente el 38% de los votos.

La gente, con cualquiera de las tendencias que le informemos, podrá tener una

noción bastante precisa de la intensión de voto de Padrón.

Continúa ...

Page 28: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

16 | P á g i n a

Resulta extraño que nadie quiera ver

en la observación el valor de servir de

fuerza -ya sea positiva o negativa- sobre las opiniones, si acaso han de tener algún valor.

Charles Darwin10

UNIDAD III

RECOGIDA DE INFORMACIÓN, RECOLECCIÓN DE DATOS

E INVESTIGACIÓN ESTADÍSTICA

En esta unidad, podemos decir: ¡Bienvenidos! Los invitamos a transitar el verda-

dero mundo de la Estadística.

Si, como veremos a lo largo del libro, la materia prima con la que trabaja la Es-tadística son los datos, el estudio de los datos debe ocupar un lugar preponderante

en un libro de Estadísticas. Sin embargo, pocos textos le abren sus páginas a esta

técnica universal que se llama Recogida de la Información. Si un fabricante de dulces debe saber cuándo y cómo recoger los frutos, el estadís-

tico debe saber, también, cuándo recoger los datos y cómo tratarlos.

Es, a nuestro entender, una unidad muy importante, porque nos introduce en un

mundo nuevo, el de la administración de la información. Veremos cómo se recogen datos mediante entrevistas, encuestas, análisis de documentación o a través de la

no tan simple observación.

De la misma manera en que una fruta mal recogida derivará en una horrenda mermelada, datos mal recogidos derivarán en mala información y en peores pre-

dicciones.

Una linda unidad, con la importancia de lo simple en la trascendente tarea del in-vestigador.

Cuando vemos la definición de Estadística como la ciencia que tiene por objeto

la organización, presentación, descripción, resumen y comparación de datos

numéricos, inmediatamente inferimos que la ―materia prima‖ de la estadística

son los datos.

El profesional de la Estadística, en muchas ocasiones, ha de trabajar con datos

10 Charles Darwin. (Charles Robert Darwin; Shrewsbury, Reino Unido, 1809 - Down, id., 1882)

Naturalista británico. Era hijo de un médico de buena posición y nieto del famoso médico, filóso-

fo, naturalista y poeta inglés Erasmus Darwin. A pesar de cursar estudios de medicina en Edim-burgo y de teología en Cambridge, inducido al parecer por su padre, muy preocupado por su futu-

ro, su interés principal, estimulado entre otros motivos por la lectura de las obras del alemán

Alexander von Humboldt, se centraba en las ciencias naturales. Fuente:

http://www.biografiasyvidas.com/biografia/d/darwin.htm

Page 29: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

17 | P á g i n a

existentes, pero, en otras, especialmente cuando debe efectuar un trabajo de in-

vestigación estadístico, debe reunir los datos sobre los que ha de ocuparse.

Por eso, entendimos que el primer capítulo específico sobre la temática de este

libro debía estar referido a la recolección de datos, que no es otra cosa que la re-

cogida de información.

La recogida de información es una práctica universalmente aceptada que se refie-

re al uso de un conjunto de técnicas o herramientas que pueden ser utilizadas por

el analista con la finalidad de buscar la información que será útil a una investiga-

ción en particular.

Por eso, en esta unidad veremos detalladamente los pasos que se debe seguir en

el proceso de recolección de datos, utilizando las técnicas mencionadas. Cada

una de estas técnicas tiene sus particularidades y cada una de ellas puede resultar

más acorde según los escenarios, y los espacios físicos y temporales involucra-

dos.

Sin embargo, estas técnicas también pueden ser utilizadas en forma conjunta, ya

que cada una tiene sus ventajas y desventajas, por lo que la utilización individual

puede dejar espacios de información vacíos que es necesario llenar con el auxilio

de las otras.

En ocasiones, a la recopilación de datos se la llama compilación de datos.

LA IMPORTANCIA DE UNA BUENA INFORMACIÓN

Obtener información es investigar ciertos antecedentes con un fin determinado

como, por ejemplo, intentar comprender, describir o explorar un área nueva, ve-

rificar una hipótesis o ratificar una idea. Son acciones fundamentales cuyo éxito

está ligado, ante todo, a la calidad de la información.

En todas estas acciones, y en muchas otras también, resulta primordial plantearse

algunas cuestiones preliminares, por ejemplo:

Motivo que origina la recogida de información.

Calidad y verosimilitud de la información sobre la cual se ha de trabajar.

Suficiencia de la calidad de la información.

Finalidad que se le ha de dar a la información.

A menudo, la información sobre la que se trabaja es mala, insuficiente, deforma-

da o mal procesada, por lo que, antes del comienzo de cualquier investigación,

resulta importante delimitar el rol de la recogida de información, las precaucio-

nes a adoptar y el uso que se le dará.

Page 30: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

18 | P á g i n a

LA RECOGIDA DE INFORMACIÓN

La recogida de información se define como el proceso organizado que se efectúa

para obtener información, a partir de diversas fuentes, con el propósito de pasar

de un nivel de conocimiento a otro superior, en el marco de una acción delibera-

da, cuyo objetivo ha sido claramente definido y que proporciona garantías sufi-

cientes de validez.

En general, puede decirse que se está obligado a recoger información cuando se

desea acotar más de cerca una situación dada, sea para:

Detectar necesidades.

Tomar una decisión.

Mejorar el funcionamiento.

Resolver un problema.

Poner a prueba una hipótesis de trabajo.

Estas acciones se diferencian, principalmente, por el objetivo que se pretende lo-

grar y por el contexto en que se desarrollan, por lo que una misma acción podría

ocultar realidades completamente diferentes.

LA RECOGIDA DE INFORMACIÓN Y EL ACTO DE INFORMARSE

Recoger información no es lo mismo que informarse, por lo que, para poder dife-

renciar un proceso científico de recogida de información del simple hecho de in-

formarse, necesariamente, deben darse las siguientes cuatro condiciones:

El carácter deliberado de la acción, es decir, que esté orientada a la toma

de una decisión, al progreso del conocimiento en una determinada área o

a la confirmación de una hipótesis de trabajo.

El carácter multilateral de la acción.

El carácter organizado de la acción.

La condición de validez suficiente de la acción.

ESTRATEGIAS PARA LA RECOGIDA DE INFORMACIÓN

Una vez que se ha determinado qué es lo que se quiere recoger como informa-

ción, es necesario elaborar una estrategia a tal fin. Las más usuales son:

La interviú.

La observación.

La encuesta.

Page 31: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

19 | P á g i n a

El estudio de documentos.

LA INTERVIÚ

Utilizamos este término para designar, particularmente, el método, mientras que

se emplea el término entrevista para designar cada una de las unidades que lo

componen.

En el sentido común del término, la interviú adquiere un significado muy restric-

tivo y no unívoco. En general, se trata de efectuar una o más entrevistas, con una

persona, para interrogarla acerca de su experiencia o conocimiento del pasado,

con fines analíticos determinados.

Características de la interviú

Por constituir un método de obtención de información, debe poseer, ineludible-

mente, un carácter multilateral, por lo que es necesario hablar de entrevistas, en

plural, siempre que nos refiramos a la interviú como método, por lo que la entre-

vista aislada, como regla general, no es un método, sino una simple conversación

sin fines analíticos.

La población se determinará, cuidadosamente, mediante una selección precisa de

las personas a entrevistar en función, obviamente, del objetivo que se pretende

alcanzar.

En un marco de recogida de información, la interviú, frecuentemente, se orienta

hacia los hechos objetivos y, en tal sentido, ciertas preguntas son clásicas:

¿Es cierto que tal acontecimiento sucedió?

¿En qué época sucedió tal cambio?

¿Debido a qué sucedió?

¿Cuál fue su efecto inmediato y mediato?

¿Qué medidas se tomaron?

Etc.

La entrevista

La entrevista puede ser considerada como el más antiguo método de recogida de

información y se basa en una antigua capacidad y adquisición evolutiva del

hombre: el lenguaje.

Asimismo, se instrumenta y desarrolla sobre una necesidad inevitable del hom-

bre: la comunicación, materializada en el diálogo.

Desde que existe lenguaje hablado existe la conversación, la comunicación inter

subjetiva, el contacto cotidiano. Con la aparición y desarrollo de las Ciencias So-

Page 32: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

20 | P á g i n a

ciales, se impuso la necesidad de crear instrumentos cada vez más precisos y

válidos para la obtención de información, con vista a obtener una apreciación

más completa de los hechos o fenómenos estudiados, lo que condujo a la crea-

ción de diversas técnicas y a la refinación de las ya existentes. Así, aparece la en-

trevista como técnica, como forma científica de acercamiento a un individuo, con

el fin de obtener de él determinada información, de acuerdo con elementos prees-

tablecidos.

Definición de entrevista

Existen muchas, y hasta en demasía, definiciones de esta técnica. Elegimos estas

dos por ser muy simples y, a su vez, muy completas.

Kerlinger11

P (1985) la define como ―una confrontación interpersonal, en la cual

una persona (el entrevistador) formula a otra (el respondiente) preguntas cuyo fin

es conseguir contestaciones relacionadas con el problema de investigación‖.

Labov y Fanshel12

P (1977) refiriéndose a los speech events o acontecimientos de

la palabra o acontecimientos de la oratoria, conceptualiza la entrevista del modo

siguiente: ―Una entrevista es un speech event en el que una persona A extrae una

información de una persona B, información que se hallaba contenida en la bio-

grafía de B, con el fin de incrementar el conocimiento de A‖.

Vemos, entonces, que todas las definiciones apuntan a los mismos aspectos: dos

o más personas, una de las cuales (y solo una) es el entrevistador, en tanto que la

otra u otras son el o los entrevistados, quienes se encuentran físicamente en un

mismo espacio para conversar en los términos establecidos por el entrevistador y

donde el entrevistador procurará obtener del entrevistado determinada informa-

ción.

Tipos de entrevista

En primer término, señalemos que, en general, existen dos tipos básicos de entre-

vistas:

La entrevista estructurada o cerrada.

La entrevista no estructurada o abierta.

En la cerrada, el entrevistador dispone de un instrumento con las preguntas

Continúa...

11 KERLINGER, F. N. (1985). Investigación del comportamiento. México, Interamericana. 12 LABOV, W. y FANSHEL, D. (1977). Therapeutic Discourse. Londres, Academic Press.

Page 33: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

21 | P á g i n a

Dame datos y te devolveré información. Alberto Alonso

UNIDAD IV

ORDENAMIENTO Y ORGANIZACIÓN DE DATOS

LA DISTRIBUCIÓN DE FRECUENCIAS

El fruticultor, cuando recoge los frutos, los acomoda en cajones y luego los agrupa

por tamaños o calidades, es decir, efectúa un acomodamiento que es previo a la fa-bricación de la mermelada.

Comenzamos en esta unidad a ver que el estadístico hace exactamente lo mismo.

Una vez que ha recogido sus datos en bruto, debe agruparlos en un cierto orden y por tamaños. Solo que en vez de cajoncitos utiliza tablas.

Estudiaremos el proceso del conocimiento que, como en un recorrido imaginario del

ferrocarril de la comunicación, pasa por distintas estaciones llamadas Dato, Capta,

Información, Conocimiento y Toma de Decisiones. Luego entramos de lleno en el arte de agrupar datos, partiendo del conteo, para lo

cual se utiliza un sencillo pero eficaz método: el de tallo-hoja.

Nuevos conceptos como el de frecuencia absoluta y relativa, intervalos de clase, an-chos de clase y marcas de clase comienzan a formar parte de nuestros conocimientos

estadísticos a medida que vamos dando nuestros primeros pasos en el arte del orde-

namiento y distribución de datos agrupados. Tanta semejanza con el carpintero y el fruticultor no hacen más que abonar la idea

de que la Estadística no es Matemática, y que solo se sirve de ella cuando realmente

la necesita.

DATOS

La evolución del dato

Podríamos decir que los datos son la materia prima de la Estadística, datos que

son el resultado de la observación de la realidad y, por ende, que son obtenidos

de la misma.

En la actualidad, se sabe que los datos son potencialmente importantes. Es por

este motivo que, en cualquier empresa bien organizada, los datos se guardan,

aunque en un momento inicial no se sepa bien para qué. Podríamos decir que se

guardan por si en algún momento se necesitan.

Iremos viendo en este acápite la importancia del dato, no como dato en sí mismo,

sino como parte de un proceso de evolución del dato que termina, a través de una

variada combinación de procesos, transformándose en información. Una infor-

mación cuya importancia radica en que constituye los cimientos de un proceso

posterior que es el de la toma de decisiones, pero, además, porque es el paso evo-

Page 34: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

22 | P á g i n a

lutivo anterior al conocimiento.

El proceso evolutivo del dato responde al diagrama mostrado en la figura IV.1.

Figura IV.1. Proceso del conocimiento

A continuación, iremos viendo el significado de estos términos.

Concepto de datos

Entendemos por datos al resultado de nuestras observaciones sobre el estado del

universo. Podríamos decir que el dato es la valoración de alguna característica

medible de una entidad13

.

Generalmente, el dato es el resultado de una medición aplicada a hechos de exis-

tencia real o de alguna valoración aplicada a hechos de existencia ideal.

La cantidad de hojas de este libro, la temperatura y la hora que leemos en la pan-

talla de nuestro televisor en estos momentos, el número de teléfono de nuestro

amigo o amiga que tenemos en nuestra agenda, el resultado del partido de

básquet de nuestro equipo favorito, el resultado de las elecciones en nuestro país,

el resultado de las ventas del día de hoy en nuestro negocio, la cantidad de horas

dedicadas al estudio en esta semana o la cantidad de vueltas a la plaza que dimos

hoy son simplemente datos. Pero también son datos ciertas valoraciones que podemos efectuar sobre temas más

abstractos como la bondad o la sabiduría, sobre el respeto o la dignidad, sobre nues-

tras emociones o depresiones, sobre la introversión o extroversión. Gracias a la exis-

tencia de varias escalas de medición (las que vimos en la segunda unidad de

este libro), todo es medible.

Los datos reflejan, entonces, las cosas de nuestro mundo. Para que un dato pueda

ser considerado como tal, debe cumplir al menos con dos condiciones:

Identificación: Los datos deben quedar identificados inequívocamente

13 En su sentido más general, una entidad o ente es todo aquello cuya existencia es reconocida

por algún sistema de ontología. Una entidad puede, por lo tanto, ser concreta, abstracta, particular

o universal. Es decir, las entidades no son solo objetos cotidianos como sillas o personas, sino

también propiedades, relaciones, eventos, números, conjuntos, proposiciones, mundos posibles,

creencias, pensamientos, etc. Fuente: Wikipedia.org

Page 35: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

23 | P á g i n a

por un conjunto de símbolos o caracteres numéricos, alfabéticos o alfa-

numéricos: 9 metros, 5 litros, 3 segundos, sin depresión, depresión mode-

rada, altamente introvertido o emoción violenta son simplemente ejem-

plos.

Contrastabilidad: Los datos deben ser contrastables, es decir, debe ser

posible determinar si el dato es cierto o no, de manera indiscutible. Por

ejemplo, debe haber formas indiscutibles de verificar cuál fue la tempera-

tura máxima del día de ayer, cuál fue el resultado del triunfo de Racing

sobre Independiente en el partido de fútbol de la semana pasada o cuál

fue el resultado de la elección interna del pasado mes de agosto de 2011

en la Argentina. A tal fin, los datos deben ser también registrables.

El hecho de que cada dato forme parte de un registro, es como un desprendi-

miento lógico de la condición de contrastabilidad, pues para que algo sea con-

trastable debe existir una forma de comprobar la exactitud o autenticidad de ese

algo14

, es decir, su registrabilidad.

CAPTA

Nos hemos cansado de escuchar que la información es el paso siguiente al dato.

Sin embargo, veremos que hay algo intermedio entre ellos.

Este algo es debido a la gran cantidad de datos que existen alrededor de nosotros

en este mundo interrelacionado y global en que vivimos. Y aquí surge inevitable-

mente una pregunta: ¿Son todos los datos necesarios? Una respuesta podría ser:

Un dato es necesario en tanto y en cuanto sea parte de la realidad

que queremos analizar o estudiar.

El motivo de estudio de alguna manera define el tipo de datos necesarios.

Según Chekland y Holwell35 FP35F

15P (1998): ―La gran cantidad de datos existentes a

nuestro alrededor, claramente en cantidad superior a la que podemos manejar,

nos lleva a seleccionar solo aquellos datos que son relevantes para las acciones

en las que estamos implicados en un determinado momento. Esta porción menor

del conjunto de datos existentes fue denominada por los autores antes menciona-

dos como capta. Así, mientras la etimología de datos (del latín, dare: dar) nos

indica que son algo que se nos da, algo que existe y al que tenemos alcance, la

14 Contrastar: Comprobar la exactitud o autenticidad de algo. Diccionario de la RAE. 15 CHECKLAND, P. y HOLWELL, S. (1998). Information, systems and information systems.

Chichester, UK, John Wiley & Sons.

Page 36: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

24 | P á g i n a

noción de capta (del latín, capere: tomar), indica que, de todo lo existente, to-

mamos solo aquello que nos es de interés, que nos es relevante‖.

Podríamos decir que la gran cantidad de datos con los que podríamos trabajar

nos lleva automáticamente a rechazar parte de ellos para concentrarnos en los

que nos aportan más relevancia en el momento y en la situación concreta en la

que nos encontramos. Tal selección se hace de acuerdo con nuestras habili-

dades cognitivas, con nuestra capacidad para detectar qué es lo que nos interesa y

qué puede ser considerado accesorio para nuestro fin y en un determinado mo-

mento.

INFORMACIÓN

Y llegamos a la tan ansiada información. Con los datos que hemos seleccionado,

hemos construido nuestra capta. Esta primera selección ya ha añadido valor a los

datos accesibles. Pero el verdadero valor proviene de poner la capta en nuestro

contexto personal o colectivo, en el ámbito de lo que nos interesa en un determi-

nado momento y situación, de lo que sabemos o de nuestro propósito. Este con-

texto nos permite dar sentido a los datos seleccionados, convirtiéndolos en in-

formación. En un determinado contexto, los datos nos servirán para algo; en otro

contexto, su significado o utilidad puede ser otro muy diferente, escaso o nulo.

Por ejemplo: 1dólar, o US$1, es un simple dato. ¿Qué nos dice? ¿Qué nos trans-

mite? Nada, absolutamente nada.

Sin embargo, si leemos: “No escatimaremos esfuerzos para liberar a nuestros

semejantes, hombres, mujeres y niños, de las condiciones abyectas y deshumani-

zadoras de la extrema pobreza...Decidimos reducir a la mitad, para el año 2015,

el porcentaje de habitantes del planeta cuyos ingresos sean inferiores a US$1

por día16

”.

Ahora, este dólar es información. Ese dólar ya ha tomado otra dimensión. Ese

dólar tiene sentido porque nos está describiendo la pobreza extrema.

Por lo tanto, somos las personas, en nuestro contexto concreto, las que damos

sentido a los datos y, también, somos las personas las que convertimos la capta

en información. Las máquinas manejan datos, pero no pueden crear información,

pues para que los datos se conviertan en información alguien debe interpretarlos

darles sentido, de acuerdo con su contexto.

Dice Drucker F

17P (2000): ―La información es datos dotados de relevancia y propó-

sito. Por ello, para transformar datos en información hacen falta conocimientos.

16 Declaración del Milenio de las Naciones Unidas (2000). 17 DRUCKER, P. (2000). ―Llega una nueva organización a la empresa‖. Harvard Business Re-

view. Gestión del conocimiento. Bilbao, Ediciones Deusto.

Page 37: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

25 | P á g i n a

Y el conocimiento, por definición, es especializado‖. Sin embargo, la informa-

ción por sí misma es una noción abstracta. La información tiene que estar dirigi-

da a alguien porque, por definición, la información es la materia prima para la

toma de decisiones.

Por eso, en la declaración de las Naciones Unidas sobre pobreza, a partir de la in-

formación referida a que la pobreza en el mundo está representada por aquellos

habitantes que ganan menos de un dólar diario, las Naciones Unidas toman una

decisión: reducir la proporción de habitantes en nivel de pobreza a la mitad para

el año 2015.

Podríamos cerrar esta explicación sobre el concepto de información mediante la

diferencia e interrelación entre datos, capta e información, dada por Cornella

(2000)18

:

Primero, porque la importancia del contexto de cada persona en el pro-

ceso de información hace que una misma capta tenga significados distin-

tos para distintas personas.

Segundo, porque es información solo aquello que el usuario encuentra

in-formante. Los datos que, aunque relevantes, no le aportan nada nuevo

o nada que no podía predecir de lo que ya sabía no son considerados in-

formación por el usuario. En este punto, la edición de la información, o

sea, su presentación en un formato que sea de utilidad al usuario, tiene

cada vez más importancia.

Tercero, porque mientras que los datos son muy fácilmente manejables

por las tecnologías de la información, la conversión de datos en informa-

ción es un proceso básicamente humano, aún no automatizable. Las tec-

nologías han resultado de gran utilidad para el manejo de datos, pero no

lo son tanto para manejar información. En consecuencia, para que una

organización tenga una buena gestión de la información, las personas son

aún más importantes que las tecnologías.

CONOCIMIENTO

El último estadio en este desarrollo conceptual corresponde al conocimiento.

Podríamos decir, a manera de símil con nuestro organismo, que la metaboliza

Continúa...

18 CORNELLA, A. (2000). ―La información no es necesariamente conocimiento". Universidad

Gastón Dachary (http://www.dachary.edu.ar).

Page 38: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

26 | P á g i n a

Cuando veas un gigante, examina antes la posición del sol;

no vaya a ser la sombra de un pigmeo.

Novalis19

UNIDAD V

MEDIDAS DESCRIPTIVAS

LAS MEDIDAS DE POSICIÓN

Ya tenemos los datos ordenaditos y ahora comienza nuestra tarea de marketing.

Igual que el fruticultor, él irá poniéndole cartelitos a sus cajones con frutos para indicar qué son, para qué sirven, qué medidas y calidades posen, y hasta elaborará

un folleto para explicar esas características. De la misma manera que el escritor

le da vida a sus personajes, describiéndolos, también la Estadística necesita des-cribir sus datos, que son como sus personajes, sus valiosos y queridos personajes.

Por eso, comenzamos ahora a estudiar las llamadas medidas descriptivas, es decir,

aquellas que describen a la distribución de datos agrupados para saber quiénes son, cómo son y cómo los podemos caracterizar.

Nuevamente, le preguntamos al lector: ¿Ve en esto alguna semejanza con las que-

ridas Matemáticas?

MEDIDAS DESCRIPTIVAS

En Estadística Descriptiva, cada unidad va dando apoyo a la siguiente. El pro-

grama de descripción de datos es así, muy apasionante y atrayente.

Vimos en la unidad IV cómo ordenar y agrupar datos con el fin de que el toma-

dor de decisiones pudiese tener un mejor manejo de los mismos. En este contex-

to, utiliza varias medidas descriptivas.

Las medidas descriptivas son valores numéricos calculados a partir de la muestra

y que nos resumen la información contenida en ella. A estas medidas podemos

agruparlas dentro de cuatro grupos muy específicos:

Medidas de Posición: Estas medidas permiten dividir un conjunto ordenado de

datos en grupos más pequeños que contengan la misma cantidad de individuos.

Estas medidas de posición de una distribución de frecuencias han de cumplir de-

terminadas condiciones para que sean verdaderamente representativas de la va-

riable que resumen. Toda síntesis de una distribución se considerará operativa si

19 Novalis (Friedrich Freiherr von Hardenberg) (1772-1881): Poeta y escritor alemán. Uno de

los escritores que formuló la teoría del romanticismo literario. Fuente:

http://www.ecured.cu/index.php/Novalis

Page 39: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

27 | P á g i n a

intervienen en su determinación todos y cada uno de los valores de la distribu-

ción, siendo única para cada distribución de frecuencias, y siendo siempre calcu-

lable y de fácil obtención.

Las medidas de posición más comunes utilizadas en Estadística son:

Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 partes igua-

les: primero, segundo y tercer cuartil.

Deciles: Hay 9 deciles que dividen a una distribución en 10 partes iguales

(Van del primero al noveno decil).

Percentiles: Hay 99 percentiles que dividen a una distribución en 100 par-

tes iguales (Van desde el primero al noventa y nueve avo percentil).

Medidas de Centralización o de Tendencia Central: Al describir grupos de

observaciones, el tomador de decisiones, en ocasiones, requiere sintetizar la in-

formación en un único valor que sea representativo del grupo. Este grupo de me-

didas se denominan de centralización o de tendencia central porque, en general,

están bastante cercanas al centro de la distribución. Entre las más usuales tene-

mos la media, la mediana y la moda.

Medidas de dispersión. Si bien al tomador de decisiones le resulta útil trabajar

con un único valor que, de alguna manera, sea representativo del grupo, esto no

es suficiente. Es por eso que también requerirá saber cuán dispersos están los va-

lores que integran el grupo con respecto al valor central. Entre las medidas de

dispersión más usuales tenemos el rango, la varianza, la desviación típica y el

coeficiente de variación.

Medidas de forma: Cuando el tomador de decisiones trabaja con curvas que re-

presentan gráficamente las distribuciones de frecuencias, necesita conocer la

proporcionalidad y la concentración de los valores dentro de tales curvas. Entre

las medidas de forma más utilizadas tenemos el coeficiente de proporcionalidad

y la curtosis.

MEDIDAS DE POSICIÓN

En muchas ocasiones necesitamos efectuar análisis posicionales de los datos que

manejamos en relación con la posición que ocupan dentro de la distribución.

Aquí se presentan dos alternativas, ambas muy valiosas para el tomador de deci-

siones.

Ellas son:

Page 40: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

28 | P á g i n a

Dado un valor, determinar cuál es la posición –en términos porcentuales-

que ocupa dentro de la distribución.

Dada una determinada posición porcentual dentro de una distribución de

frecuencias, determinar con qué valor se corresponde.

Las medidas de posición se denominan cuantiles. Wilk y Gnanadesikan (1968)

fueron pioneros en la promoción de la función cuantil muestral para el análisis

estadístico de datos, y en su artículo mencionan una larga lista de ventajas20

.

El cuantil, en sí, es un término genérico que hace referencia a los puntos de una

distribución o escala ordenada que la dividen en un determinado conjunto de par-

tes iguales.

Dentro de ellos, los más importantes son:

CUARTILES: Es una forma de cuantil que divide a una distribución ordenada

en cuatro partes iguales. Cada parte agrupa al 25% de los datos. Los cuartiles son

tres y se representan con la letra Q. Ver figura V.1.

Fig. V.1. Distribución de los cuartiles

DECILES: Es una forma de cuantil que divide a una distribución ordenada en

diez partes iguales. Cada parte agrupa al 10% de los datos. Los deciles son nueve

y se representan con la letra D.

Ver figura V.2.

20 Wilk M. B. y Gnanadesikan R. Probability Plotting Methods for the Analysis of Data. Bio-

metría. Vol. 55, No. 1 (Mar., 1968), pp. 1-17. Publicada por Biometrika Trust.

http://www.jstor.org/stable/2334448

Page 41: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

29 | P á g i n a

Figura V.2. Distribución de los deciles

PERCENTILES: Es una forma de cuantil que divide a una distribución ordena-

da en cien partes iguales. Cada parte agrupa al 1% de los datos. Los percentiles

son noventa y nueve, y se representan con la letra P.

QUINTILES: En ocasiones también se utiliza este sectorizador. Es una forma de

cuantil que divide a una distribución ordenada en cinco partes iguales. Cada par-

te agrupa al 20% de los datos. Los quintiles son cuatro. En la literatura no hay

una forma estandarizada para definirlos con alguna letra en particular.

En algunas ocasiones se utiliza la letra K.

Figura V.3. Distribución de los quintiles

MEDIANA: Una medida de posición que generalmente se estudia dentro de las

medidas de tendencia central es la mediana. La mediana es el punto medio o cen-

tro de una distribución de frecuencias acumuladas. Por definición, coincide con

el Q2, el D5 y el P50. La mediana es tanto una medida de posición como de ten-

dencia central.

EQUIVALENCIAS ENTRE CUANTILES

Dado que los cuantiles son medidas de posición, algunos cuantiles pueden tener

la misma posición dentro de la distribución de frecuencias. Por ejemplo:

Q2 es equivalente al D5 y al P50.

D1 es equivalente al P10, D2 es equivalente al P20, y así sucesivamente.

Page 42: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

30 | P á g i n a

K1es equivalente al D2 y al P20; K2 es equivalente al D4 y al P40, y así,

sucesivamente.

RANGO INTERCUARTIL (RI)

Un rango posicional que se utiliza asiduamente en Estadística es el rango inter-

cuartil. Indica qué tan lejos de la mediana tenemos que ir en ambas direcciones

para recorrer la mitad de los valores del conjunto de datos.

Para su cálculo, simplemente efectuamos la diferencia entre el Q3 y el Q1. Ver

Figura V.4

Figura V.4. Rango Intercuartil (RI) = Q3 – Q1

PERCENTILES

Una medida estadística, que se utiliza constantemente a la hora de analizar los

datos, es el percentil. El percentil es una medida de posición no central que nos

per-mite conocer cómo está posicionado un valor con respecto al total de una

muestra. Un concepto de percentil está referido al valor tal que deja por debajo

un determinado porcentaje de los miembros de la población.

Por ejemplo, el 50º punto percentil o P50 es el valor de una distribución de fre-

cuencias que deja por debajo de él al 50% de los datos de esa distribución.

De igual modo, el 75º punto percentil o P75 es el valor de una distribución de

frecuencias que deja por debajo de él al 75% de los datos de esa distribución.

DETERMINACIÓN DEL PERCENTIL EN UNA DISTRIBUCIÓN CON-

TINUA

Si una variable pudiese asumir infinitos valores (variable continua), la represen-

tación gráfica de sus porcentajes acumulados tendría una forma parecida a la que

se puede observar en la Figura V.5, conocida como Ojiva de Galton.

Continúa...

Page 43: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

31 | P á g i n a

La moda es aquello merced a lo cual lo fantástico

se convierte por un momento en universal.

Oscar Wilde21

UNIDAD VI

INDICADORES DE CARACTERIZACIÓN O DESCRIPCIÓN

DE MUESTRAS Y DISTRIBUCIONES.

LOS INDICADORES DE TENDENCIA CENTRAL

Seguimos en esta unidad con las medidas descriptivas que están referidas a los in-

dicadores de tendencia central. Llegamos aquí por primera vez a tropezar con un viejo y querido amigo: el prome-

dio. ¿Quién no ha trabajado con promedios? Recordemos cuando en el secundario

hacíamos decenas de quiméricos cálculos para saber si el promedio de nuestras calificaciones nos alcanzaba para aprobar tal o cual materia, o qué calificación

deberíamos obtener para aumentar el tan mentado promedio. Un concepto que

aprendimos casi sin darnos cuenta y que es de capital importancia en la Estadísti-ca. Sin embargo, veremos que, además del promedio, hay otros indicadores del

centro de una distribución o muestra, y que son la mediana y la moda.

No, querida lectora, no es la moda que usted imagina, pero tampoco es tan dife-

rente. Por algo se denominan de la misma manera.

Caminando por la Av. Pedro Goyena, en Caballito, Guillermo encuentra a Alber-

to, un viejo amigo al cual hacía tiempo que no veía ni del que tenía noticias.

Después del efusivo saludo, y las preguntas y respuestas de rigor, se entabla el

siguiente diálogo:

— Alberto, contame qué estás haciendo actualmente.

— Lo que me agrada. Sabes que siempre me gustó enseñar. Casualmente, acabo

de tomar un nuevo curso de Estadística en la Universidad.

— ¡Qué bueno! Seguramente estarás encantado.

— Sí, así es.

21Oscar Fingal O'Flahertie Wills Wilde (Dublín, Irlanda, entonces perteneciente al Reino Unido, 16 de octubre de 1854 - París, Francia, 30 de noviembre de 1900) fue un escritor, poeta y drama-

turgo irlandés. Wilde es considerado uno de los dramaturgos más destacados del Londres victo-

riano tardío; además, fue una celebridad de la época debido a su gran y aguzado ingenio. Hoy en

día, es recordado por sus epigramas, obras de teatro y la tragedia de su encarcelamiento, seguida

de su temprana muerte. Fuente: http://es.wikipedia.org/wiki/Oscar_Wilde

Page 44: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

32 | P á g i n a

— ¿Y cómo es tu alumnado? Me refiero a sus características.

— Mirá, te diré que la media de sus edades ronda los 28 años.

Alberto iba a continuar su comentario cuando Guillermo recibe un llamado a su

teléfono celular y, luego de terminar la comunicación, le dice a su amigo: ―ha

surgido un inconveniente en el trabajo que requiere mi presencia inmediata. Se-

guimos charlando. Te llamo en estos días al celular‖

Por la noche, Guillermo le comenta a su esposa el encuentro con su viejo amigo

y también le cuenta que estaban hablando sobre el nuevo curso de Estadística

que Alberto estaba dictando, y que, cuando este le estaba comentando acerca de

las características de sus alumnos, tuvo que finalizar abruptamente la charla por-

que lo requirieron del trabajo.

Más tarde, Guillermo piensa en lo que su amigo le había empezado a contar so-

bre las características de su curso y recuerda sus últimas palabras: ―La media de

sus edades ronda los 28 años…‖

A partir de ese dato, Guillermo trata de imaginarse al alumnado de su amigo y

encuentra que bajo tal consigna cabía una gran cantidad de alternativas:

Alternativa 1: Todos sus alumnos tienen 28 años.

Alternativa 2: La mitad de sus alumnos tiene aproximadamente 27 años y la otra

mitad 29 años.

Alternativa 3: La mitad de sus alumnos tiene aproximadamente 26 años y la otra

mitad 30 años.

Alternativa 4: Un tercio de sus alumnos tiene 27 años, el otro tercio 28 y el tercio

restante 29 años.

Alternativa N-1: Aproximadamente 1/4 de los alumnos tiene 26 años, otro cuarto

27 años, otro cuarto 29 años y el cuarto restante 30 años.

Alternativa N: Aproximadamente la mitad tiene 23 años y la otra mitad tienen 33

años.

Fue entonces que Guillermo llamó a su amigo y le dijo: ―Sabes que me quedé

con una gran inquietud: ¿Cómo está constituido el alumnado de tu nuevo curso

de Estadística? Me contaste que en promedio tenían 28 años pero con eso no

puedo imaginarme como son ellos‖.

Entonces Alberto le contesta: ―Guillermo, tú sabes que para caracterizar a una

muestra se necesitan al menos dos indicadores: uno de tendencia central y otro

Page 45: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

33 | P á g i n a

de dispersión. Te estaba contando cuál era el indicador de tendencia central y,

cuando iba a contarte cuál era el de dispersión, justo tuvimos que interrumpir

nuestra charla. Pero como hablar de indicadores de dispersión es algo más com-

plejo que hablar de indicadores de tendencia central, te sigo contando acerca de

mis alumnos, cuando nos encontremos a tomar un café en A r á b i c a la próxima

semana.

Este diálogo imaginario entre Guillermo y su amigo Alberto es lo suficientemen-

te elocuente para que, en principio, entendamos que para caracterizar una mues-

tra necesitamos dos tipos de indicadores: los de tendencia central y los de disper-

sión.

La prensa y la televisión a menudo nos saturan con noticias referidas a prome-

dios. Por ejemplo:

La cantidad de choques entre automóviles en el último mes alcanzó un

promedio de 13 accidentes diarios.

El ingreso promedio de una empleada de comercio es de 4.200 pesos.

La cantidad promedio de lluvia caída en la primavera fue de 175 mm.

La mayoría de la gente cree estar muy bien informada conociendo noticias como

las referidas. Sin embargo, tal nivel de información es muy vago e insuficiente

para ser considerado una buena información.

Esto, porque no sabemos entre qué valores varía el sueldo de la empleada de co-

mercio, o la cantidad de choque diarios entre automóviles, o la cantidad de lluvia

caída. No sabemos si la brecha entre extremos es amplia o pequeña.

Podemos concluir entonces que toda noticia basada en promedios no es una bue-

na información si no viene munida de algún sondeo adicional que nos informe

acabadamente sobre la variabilidad de las cifras a que se refiere el promedio.

INDICADORES DE TENDENCIA CENTRAL

Como hemos visto sucintamente hasta ahora, con el fin de caracterizar a una

muestra necesitamos dos tipos de indicadores.

Los de tendencia central, que son indicadores estadísticos que muestran hacia

qué valor se agrupan o convergen los datos que conforman una muestra y los de

dispersión, que nos indican o muestran cuán dispersos están los datos con respec-

to al indicador de tendencia central que los caracteriza.

La Figura VI.1, nos muestra tres distribuciones dibujadas en rojo, en verde y en

azul, todas con el mismo valor de su media (330).

Sin embargo, aunque estas distribuciones tengan la misma media, observamos

Page 46: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

34 | P á g i n a

que representan tres escenarios bastante distintos originados en conjuntos de da-

tos muy diferentes. Esto es lo que, en Estadística, llamamos dispersión de los da-

tos.

Figura VI.1. Dispersión de los datos

Por esto, la tendencia central y la variabilidad son las dos características de las

distribuciones que se cuantifican más a menudo.

Dentro de este grupo de indicadores, los más habituales son la media aritmética,

la moda y la mediana.

Analizaremos a cada uno de ellos desde dos perspectivas, según sea que se trate

de una muestra o que se trate de una distribución de frecuencias.

MEDIA ARITMÉTICA

Media aritmética de una muestra

Este indicador es el más conocido y reconocido por los legos, pues se trata del

valor que se calcula habitualmente al promediar algún conjunto de datos, tales

como el promedio de edades, alturas, calificaciones, etc.

Por ejemplo, si queremos determinar la edad promedio de los alumnos de un de-

terminado curso, solo debemos sumar las edades de cada uno de ellos y al resul-

tado dividirlo por la cantidad de integrantes del curso.

Ese numerito tan simple que hemos obtenido se llama media aritmética.

La media aritmética de una muestra, es decir, de un conjunto de datos en bruto se

define como la suma de todos los datos de la muestra dividida por la cantidad to-

tal de los mismos. En forma de ecuación, se puede escribir de dos maneras:

Page 47: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

35 | P á g i n a

1

n

i

i

X

Xn

(Media de una muestra) [Fórmula VI.1]

1

N

i

i

X

N (Media de una población) [Fórmula VI.2]

donde:

: representa los datos en bruto de una muestra o po-

blación.

: (que se acostumbra a leer X barra) representa la media del conjunto de

datos de la muestra.

μ: representa la media de una población.

n: representa la cantidad total de datos de una muestra

N: representa la cantidad total de datos de una población.

Notación: En la simbología estadística, cuando un mismo valor puede estar refe-

rido tanto a una muestra como a una población, diferenciamos la situación me-

diante su notación. Empleamos letras del alfabeto español, para indicar que nos

estamos refiriendo a una muestra y letras del alfabeto griego, para indicar que

nos referimos a una población.

Al respecto, obsérvese que utilizamos dos símbolos para la media: si los datos

son de una muestra y μ si se trata de los datos de una población.

Sin embargo, los cálculos matemáticos son exactamente los mismos sin impor-

tar de dónde provienen los datos.

Ejemplo VI.1

Supongamos que queremos conocer el kilometraje anual promedio recorrido por

cuatro vehículos de una empresa de remisería.

Los datos figuran en la Tabla VI.1.

Continúa...

Page 48: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

36 | P á g i n a

La variabilidad es lo que hace bella a la extensión,

el saber que en cada esquina puede aparecer

algo nuevo y deslumbrante,

ya que, si todo se redujese a lo central,

viviríamos un mundo monótono y neutral. Alberto Alonso

UNIDAD VII

INDICADORES DE CARACTERIZACIÓN O DESCRIPCIÓN

DE MUESTRAS Y DISTRIBUCIONES.

LAS MEDIDAS DE VARIABILIDAD

Seguimos en esta unidad con la tercera de las medidas descriptivas que están refe-ridas a los indicadores de dispersión.

¡Ah! ¿Ustedes creían que con el promedio alcanzaba?

Lamentamos decirles que la vida a veces nos brinda enseñanzas sesgadas. Prome-dios por aquí y promedios por allá, son cosas de todos los días. Pero, de informa-

ción, muy poco.

Bueno, a no ponerse nerviosos. Al final de esta unidad, habrán entendido que al promedio hay que acompañarlo con alguna medida de dispersión para poder decir

con orgullo: ¡Ahora poseemos información! ¡Ahora podemos comenzar a pensar

en tomar una buena decisión!

Y NOS ENCONTRAMOS CON GUILLERMO EN A r á b i c a

Unos días después Guillermo me habla por teléfono y quedamos en encontrarnos

a tomar un café en A r á b i c a. Siempre la puntualidad distinguió a Guillermo y a

las 10:30 exactas cruzó las puertas del café. Charlamos de muchas cosas pero, en

un momento, Guillermo me dijo:

— Alberto, me quedé pensando en el tema de los promedios de edad y debo con-

fesarte que ahora me estoy dando cuenta de que el promedio en realidad no me

está brindando mucha información. No tengo ni idea cómo son tus alumnos.

— Querido Guillermo, siempre fuiste un muy buen alumno y la lógica fue uno

de tus fuertes. Vivimos inundados de una pseudo información basada en los

promedios, pero vos rápidamente te diste cuenta de que los promedios, en reali-

dad, no nos dicen mucho, ya que, como información, son bastante pobres.

— Bueno, gracias por tu elogio. Pero es cierto, nunca antes lo había pensado.

— De acuerdo, te explicaré algo. Los promedios, que son solo una de las varias

formas de medir la tendencia central de un conjunto de datos, deben ser comple-

Page 49: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

37 | P á g i n a

mentados con otros indicadores para que la información sea más confiable y pre-

decible. Esos indicadores a los que me refiero son los llamados indicadores de

dispersión. Ellos me indican cuán dispersos están los datos que integran el grupo

alrededor de, digamos, la media.

— Claro, es como cuando me dicen que un paquete de harina de maíz pesa 500

gramos ± 20 gramos.

— Es algo similar. En verdad, a lo que vos te referís es al error de medición, pero

como concepto no está mal. Fue muy acertado. La dispersión es una especie de

error de medición del indicador de tendencia central.

— Ya voy entendiendo por qué no podía imaginarme cómo era el perfil de tu

alumnado.

— Obvio, cuando yo iba a mencionarte ese tema sonó tu celular y la conversa-

ción quedó trunca. Bueno, vayamos al grano. La desviación estándar de la edad

de mis alumnos es de 4 años.

— Claro ahora entiendo. Tus alumnos tienen edades comprendidas entre 24 y 32

años.

— No es tan así. Esa desviación no es tan directa. Es una desviación probabilíst i-

ca, por lo que sus límites no son tan fijos. Ese valor de 4 me indica que, con una

probabilidad del 68%, las edades estarán comprendidas entre 24 y 32 años. Pero

también podemos trabajar con una probabilidad mayor y los extremos se agran-

darán.

— ¡Qué bueno! Ahora entiendo perfectamente este tema. Mi pregunta es: ¿Por

qué siempre en los medios de comunicación nos hablan de promedios y nunca

nos mencionan los indicadores de dispersión.

— La respuesta es muy sencilla. Creo que no tienen ni idea (risas). Hoy vivimos

un momento en que las noticias tienen que circular muy rápidamente, aunque la

información no sea de la mejor calidad. Obviamente, si la noticia proviniese de

un ámbito académico, seguramente nos darían datos de tendencia central y de

dispersión.

— Bueno, no solo vinimos a hablar de estadísticas, aunque es muy bueno enten-

der que la Estadística es algo que forma parte constante de nuestras vidas y que

no es tan difícil entenderla, si te la explican bien. Sigamos recordando viejos

tiempos...

LOS INDICADORES DE DISPERSIÓN O VARIABILIDAD

El hipotético diálogo entre Alberto y Guillermo en el café A r á b i c a fue lo bas-

tan-

te claro para entender para qué sirven estos indicadores de dispersión a los que

nos referiremos en esta unidad.

Page 50: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

38 | P á g i n a

Los estadísticos de tendencia central nos indican dónde se sitúa un grupo de

puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones

o valores están próximos entre sí o, si por el contrario, están dispersos y, de ser

así, en qué medida lo están.

A estos últimos indicadores los reconocemos como medidas de dispersión y les

asignamos una gran importancia, por cuanto si no hubiere variabilidad o disper-

sión en los datos muestrales, la Estadística Descriptiva no tendría razón de ser.

Si las medidas de tendencia central tienen como objetivo sintetizar los datos en

un valor representativo, las medidas de dispersión nos permiten determinar hasta

qué punto esas medidas de tendencia central son representativas como síntesis de

la información.

Desde otra óptica, las medidas de variabilidad de alguna manera sirven para in-

dicarnos cuál es el grado de confiabilidad de los parámetros de tendencia central

que deseamos utilizar como representativos de la muestra o población.

Las medidas de dispersión cuantifican la separación, la dispersión o la variabili-

dad de los valores de la distribución respecto al valor central.

Habíamos puesto especial empeño en la unidad anterior en remarcar que, al igual

que sucede con cualquier conjunto de datos, la media, la mediana y la moda solo

nos revelan una parte de la información que necesitamos acerca de las caracterís-

ticas de la muestra, pero que, para aumentar nuestro conocimiento acerca de tales

características, era imprescindible medir también su dispersión, extensión o va-

riabilidad.

La dispersión es importante porque:

Proporciona información adicional que permite juzgar la confiabilidad de

las medidas de tendencia central. Cuando los datos se encuentran amplia-

mente dispersos, la posición central es menos representativa de los datos

de la cual deriva.

dado que existen problemas característicos para los datos ampliamente

dispersos, debemos ser capaces de inferir qué grado de dispersión presen-

tan antes de abordar los problemas que surgen de la misma.

Proporciona información acerca del riesgo que supone escoger muestras

que presentan amplias dispersiones.

Supongamos que se realiza una experiencia para evaluar la comprensión de un

determinado texto por parte de alumnos de dos escuelas de teatro.

Supongamos, también, que en ambas escuelas el examen obtuvo la misma califi-

cación promedio, pero que en la escuela Molière, las calificaciones estaban más

cercanas a la media, mientras que en la escuela Bertolt Brecht las calificaciones

Page 51: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

39 | P á g i n a

estaban más dispersas. Esto se podría observar en la Figura VII.1 donde la curva

más empinada nos indica una menor variabilidad de los resultados, mientras que

la curva más achatada representa una dispersión de los valores respecto a la me-

dia bastante elevada.

Figura VII.1. Curvas de frecuencia para la comprensión de texto en dos colegios

A los fines de poder cuantificar estas desviaciones o dispersiones existen tres

medidas, las cuales son utilizadas de manera común en las Ciencias del Compor-

tamiento. Ellas son: el rango, la desviación estándar y la varianza.

RANGO O RECORRIDO

Rango de una muestra El rango o recorrido, una denominación indistinta, es un indicador muy simple

que nos mide la distancia entre los valores extremos de una muestra. Matemáti-

camente, se define como la diferencia entre el valor máximo y mínimo de un

grupo de datos o muestra.

Rango = valor del dato mayor – valor del dato menor [Fórmula VII.1]

Al rango lo podríamos considerar como una primera aproximación al análisis de

las variaciones, por cuanto solo nos da una idea de la dispersión entre los datos

extremos pero no nos da ninguna información acerca de lo que sucede con el re-

sto de los datos.

Así todo es de gran utilidad, ya que nos permite apreciar la extensión de una

muestra, cuestión esta que los otros descriptores no permiten.

Aunque el rango es muy fácil de calcular, igualmente hemos incluido algunos

ejercicios que se muestran en la tabla VII.1.

Page 52: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

40 | P á g i n a

Tabla VII.1. Cálculo de algunos rangos muestrales

Muestra de datos en bruto Rango a 76 11 21 34 89 75 21 34 57 75 76 89 89 - 11=78

b 5 9 2 9 11 12 4 14 6 7 3 10 14 - 2 = 12

c 3,1 3,8 7,6 5,9 0,3 12,4 11 0,3 3,1 6,8 4,5 9,8 12,4 - 0,3 = 12,1

Rango de datos agrupados

Cuando trabajamos con datos agrupados, el rango es la diferencia entre el límite

aparente superior del intervalo mayor y el límite aparente inferior del intervalo

menor.

Rango = límite aparente superior del mayor intervalo – límite aparente inferior

del menor intervalo [Fórmula VII.2].

La Tabla VII.2 transcribe la Tabla IV.17 al solo efecto de poder calcular su ran-

go. Tabla VII.2. Límites reales de la distribución

correspondiente a los jugadores de fútbol

Posición Intervalo de

clase (i = 8)

Límites re-

ales de clase

11º 88 - 95 87,5 –96,5

10º 80 - 87 79,5 –87,5

9º 72 - 79 71,5 –79,5

8º 64 - 71 63,5 –71,5

7º 56 – 63 55,5 –63,5

6º 48 – 55 47,5 –55,5

5º 40 – 47 39,5 –47,5

4º 32 – 39 31,5 –39,5

3º 24 – 31 23,5 –31,5

2º 16 -23 15,5 –23,5

1º 8 -15 7,5 –15,5

Según la definición vista, el rango de la presente distribución es:

Rango = 95 – 8 = 87.

Continúa ...

Page 53: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

41 | P á g i n a

El jarrón da forma al vacío y

la música al silencio.

Georges Braque22

UNIDAD VIII

MEDIDAS DESCRIPTIVAS

LAS MEDIDAS DE FORMA

Las últimas de las medidas de caracterización de una distribución son las medidas

de forma. Esas formas que en la sociedad son tan importantes. De la misma manera en que tenemos amigos y amigas flacas y gorditas, altas y bajas, estas medidas de

forma nos permitirán caracterizar del mismo modo a las distribuciones. Términos

como curtosis y asimetría no son más que términos estadísticos que en buen lunfardo nos indican si las distribuciones son altas o petizas y si tienen un cuerpo agraciado o

no. Ya sabemos. Usted se seguirá preguntando por qué creía que la Estadística era

como la Matemática, y ahora estamos estudiando estilismo, modelaje, etc. ¡Vio que no le habíamos mentido!

Para hacer el análisis de la distribución de una variable en forma más completa

tenemos que complementar las medidas de posición y de dispersión con infor-

mación sobre la forma de su representación gráfica.

Cuando el tomador de decisiones trabaja con curvas que representan gráficamen-

te las distribuciones de frecuencias de los datos que está analizando, y que para

él son cruciales, necesita conocer la proporcionalidad y la concentración de los

valores dentro de tales curvas. Entre las medidas de forma más utilizadas, tene-

mos las medidas de asimetría y las de curtosis.

MEDIDAS DE ASIMETRÍA

Esta medida nos permite identificar si los datos se distribuyen de forma uniforme

alrededor del punto central o media aritmética. La asimetría presenta tres escena-

rios diferentes que se muestran en la Figura VIII.1, cada uno de los cuales define

de forma concisa la forma en que están distribuidos los datos respecto del eje de

simetría. Se dice que la curva presenta una asimetría positiva cuando la mayoría

de los datos se encuentran por encima del valor de la media aritmética.

Se dice que la curva es simétrica cuando los datos se distribuyen aproximada-

mente en la misma proporción a ambos lados de la media y a cada par de valores

22 Georges Braque (1882-1963): Pintor francés que, junto con Pablo Picasso, contribuyó al origen

y desarrollo del cubismo, del cual es una de las figuras más importantes. Fuente:

http://www.epdlp.com/pintor.php?id=200

Page 54: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

42 | P á g i n a

equidistantes les corresponde la misma frecuencia absoluta.

Se dice que la curva presenta una asimetría negativa, cuando la mayor cantidad

de datos se reúnen por debajo del valor de la media aritmética y viceversa.

Figura VIII.1. Modelos de asimetría

SESGO. COEFICIENTES DE ASIMETRÍA DE PEARSON23

Comencemos analizando qué es el sesgo en Estadística. Por sesgo se entiende la

propiedad de una muestra estadística que hace que los resultados no sean repre-

sentativos de toda la población. Si, por ejemplo, hacemos una prueba en un solo

hospital, para tratar de obtener la habilidad clínica de sus pasantes sólo porque la

ubicación es conveniente, los resultados podrían no ser representativos de todos

los hospitales del país. Se dice, entonces, que los resultados están sesgados. En

sentido genérico, el sesgo es sinónimo de error pero un error no de medición sino

del procedimiento estadístico. Así podemos hablar de sesgo del entrevistador, del

experimentador, del cuestionario, etc.

Estos coeficientes de simetría se basan en el concepto de sesgo desarrollado por

Pearson. Él denomina con el término sesgo al grado de asimetría de una distri-

bución, es decir, cuánto esta se aparta de la simetría. Si la curva de frecuencias,

que no es más que el polígono de frecuencias, pulido o suavizado de una distri-

bución tiene a la derecha una cola más larga que a la izquierda, se dice que la

distribución está sesgada a la derecha o que tiene un sesgo positivo. En caso

contrario, se dice que está sesgada a la izquierda o que presenta un sesgo nega-

tivo.

Cuando las distribuciones están sesgadas, la media tiende a estar del mismo lado

que la cola larga. Teniendo en cuenta esta propiedad, una forma de medir el ses-

23 Karl Pearson (Londres, 27 de marzo de 1857- Londres, 27 de abril de 1936) fue un prominente

científico, matemático y pensador británico que estableció la disciplina de la estadística matemá-

tica. Desarrolló una intensa investigación sobre la aplicación de los métodos estadísticos en la

Biología y fue el fundador de la Bioestadística. Fuente: http://es.wikipedia.org/wiki/Karl_Pearson

Page 55: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

43 | P á g i n a

go o asimetría de la distribución viene dada por la diferencia entre la media y la

moda. Con el fin de hacer adimensional esta cualidad, el resultado puede dividir-

se por una medida de dispersión, tal como la desviación estándar.

Trabajando sobre estas premisas, Pearson definió dos coeficientes de sesgo o

dispersión, llamados ―Sesgo1‖ y ―Sesgo2‖.

Primer coeficiente de sesgo de Pearson

Sesgo1= =X Mo

S [Fórmula VIII.1]

Las condiciones de asimetría según el coeficiente de Pearson se muestran en la

tabla VIII.1:

Tabla VIII.1. Coeficiente de sesgo1 de Pearson

Formato de la distribución Relación entre las

estadísticas Valor del Coeficiente

de Pearson

Distribución campaniforme

simétrica = Mo = Md = 0

Distribución campaniforme

asimétrica positiva - Mo > 0 > 0

Distribución campaniforme

asimétrica negativa - Mo < 0 < 0

Para evitar el uso de la moda, que es un parámetro difícil de algebratizar24

, sobre

24 Es conocido por todos que a partir del siglo XVIII comenzó una tendencia clave en el pensa-

miento matemático, que algunos autores llamaron "la algebratización de las matemáticas". A lo

largo de la historia, el álgebra ha ido de la mano de la aritmética. Pero existen muchos matices

ya que la Aritmética es la ciencia que se ocupa de los objetos concretos, esto es, de los números.

En cambio el Álgebra es, en esencia, la doctrina de las operaciones matemáticas analizadas desde

un punto de vista abstracto y genérico, independientemente de los números u objetos concretos.

Es con autores como Euler que se generalizan las reglas de resolución de problemas aritméticos;

se desarrolla el aparato simbólico-literal del Álgebra; se aclaran las operaciones con números,

monomios, radicales y números complejos; se introducen los logaritmos; se dan las reglas de ex-tracción de las raíces de números y de expresiones algebraicas polinomiales; se introducen la se-

rie como medio de expresión de las funciones racionales fraccionarias y binomiales con exponen-

tes fraccionarios y negativos de una potencia; se introducen los números poligonales, las pro-

porciones y progresiones; las fracciones decimales periódicas y se estudian los métodos de reso-

lución de ecuaciones algebraicas. Y con todos estos resultados se ve cómo el Álgebra es una dis-

Page 56: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

44 | P á g i n a

todo cuando hay más de una, Pearson recurrió a una fórmula empírica en la que

no se utiliza la moda sino la mediana (Md).

Segundo coeficiente de sesgo de Pearson

Sesgo2= 3 X Md

S [Fórmula VIII.2]

OTRAS MEDIDAS DEL SESGO

Cuartiles y percentiles

Los cuartiles y percentiles han servido para dar indicaciones acerca del sesgo de

las distribuciones. Algunos de ellos son:

Coeficiente cuartil de sesgo (CCS)

Si recordamos que una distribución tiene solo tres cuartiles, Q1, Q2 y Q3, una

combinación de ellos puede denotar el grado de asimetría de una distribución. Su

fórmula es:

3 2 2 1 3 2 1

3 1 3 1

( ) 2Q Q Q Q Q Q QCCS

Q Q Q Q [Fórmula VIII.3]

Este coeficiente es conocido como coeficiente de asimetría de Bowley-Yule y en

ocasiones en su fórmula se reemplaza el valor de Q2 por la mediana (Md), dado

que estos parámetros son iguales.

Coeficiente percentil 10/90 de sesgo

A partir de los percentiles de una distribución, se puede lograr una indicación del

grado de sesgo de la misma trabajando sobre sus percentiles 10 y 90 (P10 y P90)

en su relación con el percentil 50 (P50). Su fórmula es:

ciplina indispensable para el resto de las disciplinas matemáticas. Es por eso que se debe tener en cuenta que sin el manejo del Álgebra tampoco se podrán lograr las competencias necesarias para

el Análisis, la Estadística, la Geometría además de otras áreas como las Ciencias Económicas,

etc. Fuente: Didáctica del Algebra.

http://www.csi-sif.es/andalucia/modules/mod_ense/revista/pdf/Numero_26/GUILLERMO

_SIERRA_TORTOSA.pdf

Page 57: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

45 | P á g i n a

Coeficiente percentil 10/90 de sesgo = 90 50 50 10 90 50 10

90 10 90 10

2P P P P P P P

P P P P

Coeficiente de asimetría de Fisher

El Coeficiente de asimetría de Fisher25

se representa mediante la siguiente ecua-

ción:

3

1

3

22

1

1

1

1

n

i i

i

n

i i

i

X X nN

g

X X nN

[Fórmula VIII.5]

donde:

g1 = Coeficiente de simetría de Fisher.

Xi = Cada uno de los valores de la muestra.

ni = La frecuencia absoluta de cada dato.

= La media de la muestra

El grado de asimetría de la distribución depende únicamente del valor que adopte

g1. Los valores posibles se muestran en la Tabla VIII.2.

Tabla VIII.2. Coeficiente de simetría de Fisher (gl)

Coeficiente de simetría de Fisher (gl)

Tipo de distribución

= 0

Simétrica. Como el valor cero es muy difícil de lograr, ya que la

simetría perfecta casi no existe, se acepta que la distribución se

comporta como simétrica cuando -0,5 ≤ g1 ≤ +0,5. > 0 Asimétrica positivamente. En la práctica, cuando es > de 0,5. < 0 Asimétrica negativamente. En la práctica, cuando es < de -0,5.

Continúa ...

25 Ronald Aylmer Fisher (Londres, 17 de febrero de 1890 – Adelaida, 29 de julio de 1962):

científico, matemático, estadístico, biólogo evolutivo y genetista inglés. Fisher realizó muchos

avances en la Estadística, siendo una de sus más importantes contribuciones la inferencia estadís-

tica creada por él en 1920. Fuente: www.wikipedia.org.

Page 58: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

46 | P á g i n a

Está bien ser normal, cuando has decidido ser normal, ahora, ¿está bien ser normal cuando soñaste con ser especial?

El Chojin26

UNIDAD IX

LA CURVA NORMAL

Y llegamos a la unidad relativa a la curva normal, esa trascendental distribución

teórica de la Estadística que se caracteriza por su forma de campana. La célebre campana de Gauss.

Y si creíamos que la campana servía para llamar a misa y para indicarnos la hora,

ahora aprenderemos que esta campana sirve para mucho más: nos permitirá calcu-lar probabilidades.

¡Qué bueno! ¡Hagamos tañer las campanas para celebrarlo!

Al entrar a hablar de lo normal y, por ende, también de lo anormal, comenzamos

a sumergirnos en las agitadas aguas de lo opinable, porque la normalidad es uno

de esos conceptos difíciles de definir por ser, obviamente, un concepto subjetivo

que es visto y percibido de distintas maneras según los sentidos de cada persona.

Sin embargo, esta curva normal, tan útil en distintos ámbitos del conocimiento

como herramienta estadística, es bastante objetiva. Es como esos preceptos al

que tememos oponernos.

CONCEPTO DE NORMALIDAD

Nunca fue sencillo definir el concepto de normalidad o la cualidad de normal. En

términos generales, podemos decir que normal es todo aquello que se ajusta a los

parámetros establecidos por la sociedad para determinados eventos, personas o

estilos de vida. La normalidad, en este sentido, será la existencia de elementos

normales y ajustados a aquellos parámetros.

Habitualmente, el concepto de normalidad se aplica a situaciones, eventos o

fenómenos relacionados con la sociedad y, en este contexto, debemos reconocer

que es extremadamente difícil definir lo que es la normalidad y la anormalidad

máxime, en las sociedades actuales que son tan ricas y diversas en su interior.

Algo diferente es lo que sucede con la naturaleza o lo observable empíricamente,

26 Domingo Antonio Edjang Moreno, más conocido como El Chojin (nombre del dios de la saga de animación japonesa Urotsukidōji, pronunciado en japonés como Chōjin, no con J española,

i.e. choyín), es un intérprete y compositor de rap, nacido el 28 de abril 1977 en Torrejón de Ar-

doz (Madrid, España). Es conocido por su estilo rap conciencia, donde entre otros, rechaza la vio-

lencia, el racismo, las drogas y el alcohol, evitando palabras malsonantes. Fuente:

ttp://es.wikipedia.org/wiki/El_Chojin

Page 59: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

47 | P á g i n a

ya que cuando nos referimos a los fenómenos empíricos tales como los físicos,

los químicos, los biológicos, etc., los parámetros de normalidad son mucho más

―fáciles‖ de definir que en el primer caso. Así, para este tipo de fenómenos, las

ciencias establecen un número de elementos característicos que se observan en la

mayoría de los casos.

Una vez establecidos estos parámetros, cada futura observación podrá dar como

resultado elementos o variables de mayor o menor normalidad.

Los parámetros de normalidad son, sin duda alguna, una invención artificial del

ser humano para poner orden y organizar el mundo que lo rodea.

LA NORMALIDAD EN ESTADÍSTICA

Creemos, que pocas personas no estarán familiarizadas con la famosa curva

normal más conocida por los legos como la campana de Gauss.

Esa estupenda campanita nos indica que la mayoría de las características que me-

dimos en las ciencias del comportamiento no se apartan en demasía de la media

poblacional y que en la medida en que algunos individuos se van alejando de la

misma, por defecto o por exceso, van siendo cada vez menos y los que más se

apartan son los denominados ―bichos raros‖.

En Estadística, el concepto de normal no se ajusta demasiado al significado lin-

güístico ni sociológico, donde normal de alguna manera deriva de norma. En Es-

tadística, este término se refiere a lo más frecuente o habitual. Por ejemplo, ve-

mos que:

La mayoría de la gente tiene una estatura normal, de acuerdo con la edad.

La mayoría de la gente tiene un peso normal, de acuerdo con la edad.

La mayoría de la gente tiene un desarrollo intelectual de acuerdo con su

entorno.

Etc.

En nuestra experiencia diaria, los términos normal y frecuente, aplicados a cual-

quier rasgo, son casi sinónimos.

Cuando, por ejemplo, decimos que alguien es muy inteligente, es porque se apar-

ta de los cánones habituales, y cuando decimos que es muy cortés es por el mis-

mo motivo. También nos podemos referirnos a quienes carecen de tales virtudes

en sentido inverso y tanto unos como otros van comenzando a formar parte de

los extremos de la normalidad.

La Figura IX.1 es simplemente un gráfico que nos muestra una cierta distribu-

ción normal, más conocida como curva normal o campana de Gauss.

Page 60: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

48 | P á g i n a

Figura IX.1. Curva normal

Podríamos decir, entonces, que la curva normal es una representación de nuestras

percepciones respecto de las características de la gente.

Estas características y esta distribución normal son relativas a cada población.

La altura de las casas de un pueblito como Villa Elisa27

será muy cercana a la

media de ese pueblo pero, si las comparamos con los rascacielos de Dubái28

, se-

guramente parecerán insignificantes.

Sin embargo, esa casa pequeña de Villa Elisa tiene una altura normal para su en-

torno edilicio y los rascacielos de Dubái también tienen una altura normal para el

suyo.

En ambos entornos, el de los rascacielos de Dubái y el de las casitas de Villa Eli-

sa, encontraremos una distribución normal de alturas, aunque sus medias serán

extremadamente diferentes. De aquí surge, casi intuitivamente, un concepto muy

importante: la normalidad es relativa a cada población.

La distribución normal, que representamos mediante la curva normal, es un mo-

delo matemático teórico al que de hecho tienden a aproximarse las distribuciones

que encontramos en la práctica, sean estadísticas criminales, biológicas, educa-

cionales, sociales, deportivas o económicas.

No debemos olvidar, tampoco, que la curva normal también es un modelo muy

útil por su relación con el cálculo de probabilidades que nos va a permitir hacer

inferencias y predicciones, y que la inferencia estadística en gran parte fue des-

arrollada sobre los cimientos de la distribución normal aportados por Carl Frie-

27 Villa Elisa. Partido de La Plata. Provincia de Buenos Aires. Argentina. 28 Dubái. Ciudad capital de Dubái, uno de los siete emiratos que conforman los Emiratos Árabes

Unidos.

Page 61: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

49 | P á g i n a

drich Gauss.

Algo de historia

La distribución normal ha sido analizada por diferentes estudiosos y desde diver-

sas perspectivas. Una reseña muy escueta es la siguiente:

El matemático francés Abraham De Moivre (1667-1754) es el primer autor en

publicar una explicación de la distribución normal, de manera similar a cómo la

entendemos actualmente, solo un año antes de morir.

Si bien el objetivo de los estudios fueron los juegos de azar, la preocupación de

De Moivre, al igual que la de muchos científicos de su época, superaba tales

mezquindades paganas y se sumergía en lo teológico. Decía De Moivre que el

aparente desorden del universo era consistente con un plan inteligente mientras

que el caos solo es aparente porque tiene sus normas.

El matemático y astrónomo alemán Carl Friedrich Gauss (1777-1855), conside-

rado un prodigioso de las matemáticas, fue quien estudió y desarrolló la distribu-

ción normal, sobre todo aplicada a la observación astronómica. Gauss denominó

a esta distribución ―distribución de errores‖, dado que surgió de sus observacio-

nes sobre la órbita de los asteroides. En honor a Gauss, la distribución normal

lleva su nombre.

El astrónomo belga Adolphe Quetelet (1796-1874) y el polímata29

inglés Francis

Galton (1822-1909), ambos ya en el siglo XIX, son los primeros en descubrir y

estudiar las aplicaciones de la distribución normal a las medidas de antropometr-

ía (altura, peso, etc.) y a los fenómenos sociales, y de ahí se pasó a utilizar en

otro tipo de medidas como la de inteligencia y a otras en el campo de la Psico-

logía y la Educación.

Finalmente a Karl Pearson (1857-1936) se le atribuye haber acuñado el término

curva normal.

CONCEPTO DE FUNCIÓN DE DENSIDAD

Para poder entender el concepto de distribución normal, previamente debemos

observar cómo va cambiando la representación gráfica de cualquier característica

29 La polimatía (del griego πολυμαθία, el aprender mucho −de μανθάνω, aprender y πολύ mu-

cho−) es la sabiduría sobre campos diversos. Así, un polímata (en griego: πολυμαθής ), que quie-

re decir «que conoce, comprende o sabe de muchos [campos]», sería un individuo que destaca en diversas ramas del saber. El término se refiere a personas cuyos conocimientos no están restrin-

gidos a un área concreta, sino que dominan diferentes disciplinas, generalmente las artes y las

ciencias. La mayoría de los filósofos de la antigüedad eran polímatas, tal como entendemos el

término hoy en día. Fuente: http://es.wikipedia.org/wiki/Polimat%C3%ADa

Page 62: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

50 | P á g i n a

de una población a medida que va aumentando el tamaño de la muestra.

Cuando las muestras son pequeñas, es decir que están compuestas por pocos in-

dividuos, los datos son bastante diversos y no siguen ninguna regla de compor-

tamiento. Un ejemplo sería el que se muestra en la figura IX.2.

A medida que el tamaño de la muestra crece, los datos comienzan a ajustarse a la

normalidad.

Este concepto que tratamos de exponer gráficamente es una buena ilustración del

concepto de función de densidad.

Figura IX.2. Distribuciones de frecuencia

DEFINICIÓN DE FUNCIÓN DE DENSIDAD

La función de densidad de una variable continua X, es la curva teórica que se de-

duce al imaginar la representación de las frecuencias de los resultados ocurridos

tras la repetición del experimento aleatorio infinitas veces.

LA CURVA NORMAL

Como ya explicamos al inicio de esta unidad, la curva normal es una distribución

muy importante en las Ciencias del Comportamiento.

Esta curva normal es una distribución teórica de los datos de una población que

posee forma de campana y está descrita por la siguiente ecuación:

2

22.2

XN

Y e [Fórmula IX.1]

Continúa ...

Page 63: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

51 | P á g i n a

Crea tu propio estilo visual, que sea exclusivo

para ti y a la vez identificable para los demás.

Orson Welles30

UNIDAD X

LA GRAFICACIÓN EN ESTADÍSTICA

Desde los primeros días de la humanidad, el ser humano tuvo la imperiosa necesi-

dad de comunicarse con sus semejantes. Las primeras formas comunicativas fue-ron mediante elementos visuales. Anunciaban sus estados de ánimo, esperanzas y

miedos a través de movimientos, expresiones y signos. Fue así que, a partir del uso

de diversos materiales, el lenguaje visual adquirió mayor importancia. La repre-sentación de ideas mediante grafos experimentó un gran avance con la aparición

de los primeros lenguajes escritos introducidos por el hombre de Neandertal, los

cuales estaban basados en la representación de elementos de la naturaleza.

Entonces, si la gráfica fue y es tan importante para la comunicación y la expre-sión, cómo podría no estar presente y ser ajena al ámbito de la Estadística. La

gráfica es casi un arte y el arte es una parte de la Estadística: el arte de predecir y

comunicar tales predicciones. Entonces, hagamos blandir las trompetas, tomemos los lápices de colores, las acuarelas y los óleos y comencemos a hacer gráficos y

diagramas para comunicarnos más eficazmente.

La Estadística trabaja con datos, los compila, los ordena y los elabora con el fin

de obtener parámetros y estadísticos que le sean de utilidad al hombre y a la so-

ciedad en la interpretación de la realidad.

Sin embargo, esas largas listas de números a menudo producen, para el común de

la gente, un cierto rechazo hacia su lectura y, también, algún grado de incom-

prensión.

Así, la Estadística necesitó armar su propio marketing, necesitó transmitir su in-

formación de manera que llegara a la gente y esta la comprendiera fácilmente.

De este modo, siguiendo lo dicho por Welles, creó su propio estilo visual, y de

allí surgieron los gráficos que hoy inundan cuanto medio de información poda-

30 George Orson Welles (1915-1985): productor, director, guionista y actor estadounidense, pio-

nero y genio del cine, maestro y profundo renovador de los recursos estéticos y narrativos del lenguaje cinematográfico. Figura influyente por su estilosa e imaginativa estética, mezcla de in-

fluencias expresionistas con su gusto por la barroca elaboración visual.

Fuente: http://www.alohacriticon.com/elcriticon/article251.html

Page 64: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

52 | P á g i n a

mos consultar, sean científicos, técnicos, o de simple divulgación. Como una ex-

celente ciencia innovadora, percibidora del cambio, relegó en algunos aspectos

su lenguaje matemático para dar paso a un lenguaje gráfico y visual muy a tono

con la época en que vivimos.

La utilidad de los gráficos es doble, ya que pueden servir no solo como sustituto

de las tablas, sino que también constituyen por sí mismos una poderosa herra-

mienta para el análisis de los datos, siendo, en ocasiones, el medio más efectivo

y eficaz para describir y resumir la información, así como también analizarla.

La aplicación del gráfico a la visualización de las distribuciones de frecuencias

ha logrado tanto su objetivo de mejorar la transmisión de la información como de

fijar conceptos por parte de los alumnos. La clara distinción visual entre un

gráfico de barras y un histograma permite, por ejemplo, que el alumno visualice

las nociones de límites muy fácilmente y distinga una variable nominal de una

cuantitativa.

¿CÓMO GRAFICAR?

Antes de describir los distintos tipos de gráficos que se utilizan en Estadística, es

importante recordar algunos conceptos básicos de la graficación:

La mayoría de los gráficos se realizan sobre un sistema de ejes cartesianos orto-

gonales formado por un eje vertical llamado eje de las ordenadas y otro horizon-

tal llamado eje de las abscisas. Recordemos que la ordenada es la distancia ver-

tical desde un punto hasta el eje horizontal, también llamado eje de las equis (X).

Por su parte, la abscisa es la medida horizontal desde un punto hasta el eje de la

íes (Y).

En general, y esto es una mera convención, los datos se agrupan sobre el eje

horizontal y sus características o atributos, sobre el eje vertical. Estos atributos

pueden ser simples unidades, porcentajes o frecuencias y, en ocasiones, descrip-

ciones subjetivas, tal como sucede con las escalas de orden y las nominales.

Los datos y sus características deben ser agrupados mediante escalas acordes a su

intensidad y frecuencia.

Tanto en los datos como en los atributos, se deben respetar los ceros respectivos.

El no respeto de esta condición trae aparejadas distorsiones visuales y, por ende,

interpretativas.

Para entender lo dicho en este punto, nada mejor que apoyarse en un ejemplo,

como el del ingreso promedio anual, en una moneda cualquiera, para los habitan-

tes de un determinado país. Este puede observarse en la distribución de frecuen-

cias de la Tabla X.1.

Page 65: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

53 | P á g i n a

Tabla X.1. Ingreso anual promedio durante los primeros 7 años

Año Ingreso anual promedio

0 10.000

1 10.150

2 9.900

3 10.300

4 9.800

5 9.600

6 10.250

Las Figuras X.1 y X.2 son graficaciones de la distribución de frecuencias mos-

trada en la Tabla X.1. En la primera de ellas, es decir, en la Figura X.1, ambas

escalas tienen un cero absoluto.

Figura X.1. Representación de la distribución de frecuencias de la tabla X.1

con escalas que poseen cero absoluto

Por su parte, en la Figura X.2, la escala de ingresos anuales carece de tal cero ab-

soluto. Ambas representaciones visuales de la misma distribución de frecuencias

son totalmente distintas. La primera refleja un panorama donde los ingresos

anuales durante los 7 primeros años son bastante constantes. La segunda, por su

parte, refleja un panorama donde los ingresos anuales durante los primeros 7

Page 66: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

54 | P á g i n a

años sufren fuertes variaciones.

Figura X.2. Representación de la distribución de frecuencias

de la Tabla X.1, donde la escala vertical carece de cero absoluto.

Vemos entonces que una misma realidad tiene dos representaciones visuales y,

por ende, interpretaciones distintas, por no haberse cumplido la obligación de

mantener los ceros absolutos en ambas escalas.

Obviamente, la representación visual de la Figura X.1 es la correcta, mientras

que la segunda es perversa.

Muchas veces vemos en los medios de comunicación que se quiere resaltar un

determinado acontecimiento y se lo hace mediante un gráfico muy acotado y sin

respetar los ceros absolutos como el de la Figura X.2.

Con esta información visual, más que resaltar un acontecimiento, se lo torna di-

fuso y confuso. Un gráfico, en Estadística, tiene que tener la misma objetividad

científica que la materia en que se basa.

Cuando, por algún motivo, no se pueden mantener las escalas con cero absoluto

en algún eje, en el eje que no lo posee se debe efectuar un zigzag que denota tal

situación. La Figura X.3 representa tal situación, donde el eje X carece de cero

absoluto, no así el Y.

Page 67: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

55 | P á g i n a

Figura X.3. Ejes ortogonales sin cero absoluto en el eje horizontal

Cuando corresponda, cada eje debe tener su etiqueta correspondiente.

GRAFICACIÓN DE VARIABLES CUALITATIVAS

En muchas ocasiones, estamos frente a casos donde las frecuencias están relacio-

nadas con datos cualitativos. Sucede esta situación, por ejemplo, en la produc-

ción anual o mensual de un determinado tipo de vehículos, o en la cantidad de

habitantes de distintas ciudades, personas diferenciadas por género, cantidad de

profesionales diferenciados por título en una ciudad, etc.

Para graficar estos supuestos, podemos utilizar tanto diagramas sobre ejes carte-

sianos como diagramas circulares.

La condición, cuando se utilizan sistemas de graficación sobre ejes cartesianos,

es que el eje de los datos, en general el horizontal, no sea interpretado como re-

presentativo de valores cuantitativos, sino cualitativos, y, por ende, carente de

escala.

GRÁFICO CIRCULAR O DE SECTORES

Estos gráficos se denominan así debido a que utilizan el sector circular como

manera de mostrar un atributo.

Recordemos que, en Geometría, se definía al sector circular como la 0Tporción de

círculo comprendido entre un arco de circunferencia (L) y sus respectivos radios

delimitadores (r), los cuales deslindan un ángulo (θ). Lo expresado puede

Continúa ...

Page 68: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

56 | P á g i n a

Evito siempre predecir de antemano,

porque es mucho más fácil

hacerlo a posteriori.

Winston Churchill31

UNIDAD XI

REGRESIÓN LINEAL

Bien, estimada lectora o lector, estamos llegando finalmente a esta unidad que

busca, a partir de la descripción de dos muestras, hallar una ecuación que las vin-

cule, con el fin de poder predecir32

el comportamiento de una variable según los

cambios que ocurren en la otra.

Más allá del significado lingüístico del término predecir, desde un punto de vista

estadístico, por predicción se entiende la determinación del valor que deben al-

canzar, de acuerdo con las ecuaciones derivadas de datos empíricos recogidos

estadísticamente, ciertas variables en momentos futuros del tiempo.

Cuando una relación es perfecta, efectuar predicciones es de lo más sencillo,

pues a cada valor de X, la variable independiente, le corresponde un único valor

de Y, la variable dependiente. En otras palabras, si trazo una vertical por el punto

X1, esta vertical cortará a la recta a en un único punto y, si trazo por esa intersec-

ción otra recta paralela al eje X, esta interceptará al eje Y también en un único

punto Y1, que es la predicción buscada.

Esto lo muestra la figura XI.1.

31 Sir Winston Leonard Spencer Churchill (Palacio de Blenheim, 30 de noviembre de 1874 -

Londres, 24 de enero de 1965) fue un estadista, historiador, escritor, militar, orador y primer mi-

nistro británico. Fuente: http://es.wikiquote.org/wiki/Winston_Churchill. 32 Predecir. Anunciar por revelación, ciencia o conjetura algo que ha de suceder. RAE

El tren está llegando a destino y ya hemos aprendido mucho de Estadística.

En esta unidad, veremos la regresión lineal, un tema indisolublemente unido a la correlación, que será la estación final de nuestro viaje por la ciencia de los datos.

Mediante la regresión lineal pasamos de tener un diagrama de conjuntos de datos

apareados a transformarlos en una recta que nos permite efectuar predicciones sobre cómo se comportará una variable ante las variaciones de la otra.

El tener una recta es muy importante, pues elimina la necesidad de tener que efec-

tuar innumerables análisis para medir el comportamiento de las variables.

Sin embargo, aún nos falta llegar a la última estación donde aprenderemos a reco-nocer cuán confiable es la recta que hemos diseñado mediante los cuadrados

mínimos. Seguimos con nuestro itinerario…

Page 69: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

57 | P á g i n a

Figura XI.1

Pero cuando la relación es imperfecta, es decir, cuando no todos los puntos caen

sobre una recta, la situación se complica cuando queremos efectuar una predic-

ción, pues puede darse el caso de que la recta trazada por un determinado valor

de X no corte a ningún punto o corte a más de uno.

Imaginemos el caso ilustrado en la Figura XI.2.

Figura XI.2

Vemos que una recta que pasa por el punto X1 interceptaría a dos puntos en su

camino, el A y el B, que a su vez generan dos predicciones, Y1 e Y2 ¿Cuál de

ellas sería la correcta? ¿Y si el punto elegido fuese el X2? Aquí la vertical trazada

por el mismo no encontraría ningún punto en su camino y, por ende, no se podría

realizar ninguna predicción.

Entonces, la única manera de poder realizar una predicción cuando estamos en

condiciones de imperfección es que a esa nube de puntos la transformemos en

Page 70: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

58 | P á g i n a

una recta ideal, que nos permita realizar predicciones, pues, al existir tal recta

ideal, estaríamos en el caso de la Figura XI.1.

Y hablamos de una recta ideal, pues sería una recta que idealmente representará

óptimamente a toda la nube de puntos.

Esa recta ideal es la que obtendremos por un método que ya es un viejo conocido

nuestro: el de los cuadrados mínimos.

MÉTODO DE LOS CUADRADOS MÍNIMOS

El método de los cuadrados mínimos, que ya aplicamos cuando estudiamos la

varianza y la desviación estándar, es una técnica de análisis numérico en la que,

partiendo de un conjunto de pares de datos, se trata de encontrar la función que

mejor los represente.

Recordemos que cada par de datos (X, Y), está representado en el plano como un

punto. Esa función que mejor representará a las nubes de puntos es la que logrará

el mejor ajuste33

de acuerdo con un criterio de minimización del error cuadrático

o cuadrado del error.

En su forma más simple, tal como lo vimos al tratar la desviación estándar, el

método intenta minimizar la suma de los cuadrados de las diferencias entre los

puntos generados por la función y los correspondientes a los datos.

Desde un punto de vista estadístico, un requisito implícito para que el método de

los cuadrados mínimos sea aplicable, es que los errores de cada medida estén dis-

tribuidos de forma aleatoria. A los errores estadísticos, en Cálculo Numérico, se

los llama residuos.

Imaginemos que tenemos una nube de puntos que, de acuerdo con el factor r de

Pearson (que veremos en la unidad XII), posee una relación fuerte. Esto quiere

decir que esa nube de puntos tiene una tendencia a converger en una recta. Pero

si nosotros tratáramos de trazar rectas representativas de ese montón de puntos

dispersos, nos encontraríamos con que podríamos trazar muchas de ellas, como

nos muestra la Figura XI.3. ¿Y cuál de ellas elegiríamos? ¿Cuál de ellas repre-

senta idealmente a la nube de puntos? ¿Cuál de ellas nos parece que presenta un

mejor ajuste? La respuesta a esta sarta de cuestiones nos la brinda el método de

los cuadrados mínimos.

33 Ajuste: Es la serie de actuaciones orientadas a encontrar los elementos o representaciones es-

tadísticas que se acomodan mejor a un conjunto dado de datos; por ejemplo, la ecuación y línea

que se adapta mejor a una nube de puntos. En cuanto a resultados, es el acoplamiento existente o

logrado entre una serie de datos y ciertos elementos estadísticos que los representan. SIERRA

BRAVO, Restituto (1991). óp. cit.

Page 71: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

59 | P á g i n a

Figura XI.3

LA RECTA POR REGRESIÓN

A los fines de ilustrar el método de los cuadrados mínimos, reemplazaremos la

nube de puntos por unos pocos puntos ejemplificativos, como nos muestra la Fi-

gura XI.4.

Figura XI.4. Recta por regresión, compensada verticalmente

Vemos en ella que cada punto real, que es el valor de la observación experimen-

Page 72: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

60 | P á g i n a

tal, está desplazado verticalmente con respecto a la recta a, que es la recta ideal

que los ha de representar. Se trata de una recta de ajuste.

Si la recta a es ideal, ella debería estar trazada de tal modo que la suma de las di-

ferencias positivas sea igual a la suma de las diferencias negativas. Las diferen-

cias son las distancias entre el valor Y real del punto y el valor Y´, que es el valor

de Y proyectado sobre la recta ideal. A tales diferencias las denominamos errores

y una de ellas está ilustrada en la Figura XI.4.

Volviendo a lo dicho, si las diferencias positivas se compensasen exactamente

con las negativas, su sumatoria sería nula. Por eso, al igual de lo que sucedió con

la varianza, aquí se toman las diferencias cuadráticas, ya que, al estar elevadas al

cuadrado, siempre serán positivas y desaparece la nulidad de las diferencias.

La nulidad de las diferencias conceptualmente es buena, lo que sucede es que,

matemáticamente, es bastante difícil de interpretar, pues una diferencia nula in-

dica que no hay dispersión, lo cual no es cierto. Ahora, al reemplazar las diferen-

cias por las diferencias cuadráticas, ya no podemos tener un objetivo de nulidad,

sino que nuestro objetivo se transforma en una especie de objetivo de mínima.

Lo que buscamos ahora es la sumatoria de las diferencias cuadráticas que arroje

el mínimo valor.

Eso es lo que se logra aplicando el método de los cuadrados mínimos. Es decir

que la sumatoria de los errores cuadráticos sea mínima, de allí el nombre del

método.

Podemos decir, entonces, que la recta de regresión por mínimos cuadrados es la

recta de predicción que minimiza la 2

Y Y , y esta recta es única.

Construcción de la recta por regresión

En el ámbito excelso y riguroso del cálculo numérico, vamos a construir nuestras

rectas de regresión numéricamente.

Recordemos que a estas rectas las trazamos únicamente con la finalidad de poder

predecir, es decir, de conocer el comportamiento de la variable dependiente, sin

necesidad de efectuar un experimento cada vez que la variable independiente

cambia de valor. Es por eso que a estas rectas también las llamamos rectas de

predicción.

La ecuación de la recta de regresión por mínimos cuadrados está dada por la si-

guiente ecuación:

y yY a X b [Fórmula XI.1]

Continúa...

Page 73: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

61 | P á g i n a

De todos los problemas tratados por los estudiosos mayas,

el así llamado problema de la correlación es el más importante.

John Major Jenkins34

UNIDAD XII

LA CORRELACIÓN COMO MEDIDA DE LA RELACIÓN

En los capítulos anteriores, nos interesaban las distribuciones individuales y la

mejor forma de caracterizarlas. Además de describir estas distribuciones, con

frecuencia, había que determinar si los datos de una distribución se relacionaban

con los datos de otra.

Esto es importante, pues, en caso de determinar la existencia de tal relación, se

podría tratar de encontrar algún tipo de ecuación que la describiese. La existencia

de una ecuación que describe el comportamiento de una relación entre dos distri-

buciones es, a su vez, importante, porque permite relacionar el comportamiento

de una con la otra para cualquier valor de esta, sin necesidad de lograr esas rela-

ciones a partir de la experimentación.

Los investigadores en metalurgia desde hace tiempo han descubierto que existe

una relación entre el contenido de carbono de un acero y su dureza. Si no se pu-

diese encontrar una ecuación que vincule estas dos variables, para cada valor de

la variable independiente (contenido de carbono del acero) debería efectuar un

34 JENKINS, John Major (1994). Tzolkin: Visionary Perspectives and Calendar Studies. Bayside,

California, Bordeland Sciences Research Foundation.

Y ya llegando al final queremos recordar que las dos últimas unidades que hemos visto son dos temas sobre los cuales los autores no se ponen de acuerdo acerca

de si pertenecen a la Estadística Descriptiva o a la Inferencial. Pero estas dudas

no solo las tienen los estadísticos. Ya lo decía Facundo Cabral en su hermosa canción “No soy de aquí ni soy de allá”. Y esto es así por cuanto la correlación y

la regresión lineal se pueden utilizar tanto con fines descriptivos como inducti-

vos.

La cuestión que trataremos en esta unidad, es la referida a la correlación, una herramienta muy simple que nos permite reconocer qué tan fuerte son las rela-

ciones entre las distintas variables. Y, como no podría ser de otra manera, fue

Karl Pearson quien desarrolló un coeficiente para medir el grado de asociación entre esas variables.

Un tema muy útil y atrapante, digno de la última estación en nuestro viaje por los

terrenos estadísticos. ¡Que la hayan pasado lindo y no duden en regresar cuando

lo deseen!

Page 74: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

62 | P á g i n a

experimento para encontrar el valor de la variable dependiente (dureza del ace-

ro).

Entonces, las ventajas de contar con una ecuación son innegables y el fin último

de todo investigador consiste en hallar tales ecuaciones, en caso de ser posible.

En esta unidad, nos detendremos en el estudio de la correlación, es decir, analizar

qué tipo de relación existe entre dos variables.

En la unidad anterior, vimos el concepto de regresión lineal. Es decir, habiendo

determinado que existe una relación aceptable entre las variables que representan

un determinado fenómeno, determinar la ecuación que las vincule.

Algunos ejemplos de relación se pueden dar entre las siguientes variables.

Temperatura de un metal vs. dilatación lineal del mismo.

Magnitud de una lesión de ligamentos vs. tiempo de recuperación del de-

portista.

Inversión en publicidad vs. variación en las ventas del producto publici-

tado.

Temperatura ambiente vs. consumo de energía.

Desigualdad social vs. salud

Tiempo de ejercitación vs. pérdida de agua corporal.

Altura vs. presión atmosférica.

Nivel de salud vs. vulnerabilidad

Inversión en seguridad vs. nivel criminal.

Calidad vs. precio.

Etcétera.

Vemos, en los ejemplos anteriores, que el conocimiento del comportamiento de

una variable nos sirve para predecir el comportamiento de la otra.

Además de la utilidad práctica que brinda el usar una relación para efectuar una

predicción, podemos preguntarnos: ¿Por qué nos interesaría establecer si dos va-

riables están relacionadas entre sí?

Una razón importante que nos brinda la correlación entre dos variables es que, si

ellas están relacionadas, es posible que una de ellas sea la causa de la otra35

.

35 Reconocemos que el tema de la causa y el efecto ha generado muchos debates filosóficos. Sin

embargo, no podemos analizar todos los aspectos relacionados con este tema. Al utilizar el

término causa, lo hacemos en la forma común, empleada por los que no son filósofos. Es decir,

cuando decimos que A causó B, queremos decir que una variación en A produjo una variación en

B, cuando las demás variables son controladas en forma adecuada.

Page 75: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

63 | P á g i n a

Como veremos más adelante en esta unidad, el hecho de que dos variables estén

relacionadas entre sí no es suficiente para probar la causalidad. Sin embargo,

como los estudios de correlación son sencillos, demostrar que existe una correla-

ción entre las variables es con frecuencia el primer paso para demostrar que están

relacionadas en forma causal. Recíprocamente, si no existe una correlación entre

las dos variables, esta relación se puede descartar.

Otro uso muy importante de la correlación es la determinación de la confiabili-

dad test-retest36

de los instrumentos de evaluación. La confiabilidad test-retest

significa que existe consistencia en los puntajes obtenidos por los individuos en

administraciones repetidas de una prueba. Por ejemplo, suponiendo que el IQ de

un individuo permanece estable de un mes a otro, esperaríamos que una buena

prueba de IQ mostrara una relación fuerte entre los puntajes obtenidos por el

mismo individuo en dos administraciones de la prueba, realizadas con un mes de

diferencia. Las técnicas correlacionales nos permiten cuantificar la relación entre

los puntajes obtenidos en las dos administraciones y, de esta manera, medir la

confiabilidad test-retest del instrumento.

La correlación y la regresión están muy relacionadas entre sí. Ambas implican 1a

relación entre dos o más variables. La correlación se ocupa, principalmente, de

establecer si existe una relación, así como de determinar su magnitud o fuerza y

su dirección, mientras que la regresión se encarga, principalmente, de transfor-

mar la relación en una ecuación, con el fin de poder efectuar predicciones.

LA PREDICCIÓN

La predicción constituye una de las esencias clave de la ciencia, de una teoría

científica o de una hipótesis científica, donde su éxito se mide por el acierto o

desacierto que tengan sus predicciones.

La predicción en el contexto científico es una declaración precisa de lo que ocu-

rrirá en determinadas condiciones especificadas. Se puede expresar mediante el

silogismo37

: Si A es cierto, entonces B también será cierto.

36 Test-retest: Se trata de pasar el mismo test dos veces. Se puede pasar inmediatamente, o dejan-

do un intervalo de tiempo entre el test y el retest. Después se aplica la correlación de Pearson.

Las diferencias en los resultados se atribuyen al grado de consistencia interna o muestreo de los

ítems de la prueba en el caso de pasar el retest de forma inmediata, y se le suman las fluctuacio-

nes en el tiempo en el caso del intervalo temporal. Fuente:

http://www.buenastareas.com/ensayos/Psicometria/1929875.html 37 El silogismo es una forma de razonamiento deductivo que consta de dos proposiciones como

premisas y otra como conclusión, siendo la última una inferencia necesariamente deductiva de las

otras dos. Fue formulado por primera vez por Aristóteles, en su obra lógica recopilada como El

Organon, de sus libros conocidos como Primeros Analíticos, (en griego, Proto Analytika; en latín

–idioma en el que se reconoció la obra en Europa Occidental−, Analytica Priora). Aristóteles

Page 76: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

64 | P á g i n a

El método científico concluye con la prueba de afirmaciones que son consecuen-

cias lógicas del corpus de las teorías científicas. Generalmente, esto se hace a

través de experimentos que deben poder repetirse o mediante estudios observa-

cionales rigurosos.

Según esto, una teoría científica cuyas aseveraciones no son corroboradas por las

observaciones, por las pruebas o por los experimentos, probablemente será re-

chazada. El falsacionismo de Popper38

considera que todas las teorías deben ser

consideraba la lógica como lógica de relación de términos. Los términos se unen o separan en los

juicios. Los juicios aristotélicos son considerados, desde el punto de vista de unión o separación

de dos términos, un sujeto y un predicado. Hoy se hablaría de proposición. La diferencia entre

juicio y proposición es importante. La proposición afirma un hecho como un todo, que es o no es,

como contenido lógico del conocimiento. El juicio, en cambio, atribuye un predicado a un sujeto

lógico del conocimiento otorgando a los términos al mismo tiempo una función lingüística de

significado (semántica) y una función formal lógica (sintáctica). Esto tiene su importancia en el

concepto mismo del contenido de uno, el juicio, y la otra, la proposición, especialmente en los casos de negación, como se ve en la problemática de la lógica silogística. Fuente:

http://es.wikipedia.org/wiki/Silogismo

38 El Falsacionismo, Refutacionismo o Principio de Falsabilidad es una corriente epistemológica

fundada por el filósofo austríaco Karl Popper. Para Popper, constatar una teoría significa intentar

refutarla mediante un contraejemplo. Si no es posible refutarla, dicha teoría queda corroborada,

pudiendo ser aceptada provisionalmente, pero nunca verificada. Dentro del Falsacionismo meto-

dológico, se pueden diferenciar el Falsacionismo ingenuo inicial de Popper y el Falsacionismo

sofisticado de la obra tardía de Popper y la metodología de los programas de investigación de Im-

re Lakatos.

El problema de la inducción nace del hecho de que nunca podremos afirmar algo universal a par-

tir de los datos particulares que nos ofrece la experiencia. Por muchos millones de cuervos negros

que veamos, nunca podremos afirmar que "todos los cuervos son negros". En cambio, si encon-tramos un solo cuervo que no sea negro, sí podremos afirmar: "No todos los cuervos son negros".

Por esa razón, Popper introduce como criterio de demarcación científica el falsacionismo.

Popper, en realidad, rechaza el Verificacionismo como método de validación de teorías. La tesis

central de Popper es que no puede haber enunciados científicos últimos, es decir, que no puedan

ser contrastados o refutados a partir de la experiencia. La experiencia sigue siendo el método dis-

tintivo que caracteriza a la ciencia empírica y la distingue de otros sistemas teóricos.

Para Popper, la racionalidad científica no requiere de puntos de partida incuestionables, pues no

los hay. El asunto es cuestión de método. Aunque la ciencia es inductiva, en primera instancia, el

aspecto más importante es la parte deductiva. La ciencia se caracteriza por ser racional, y la ra-

cionalidad reside en el proceso por el cual sometemos a la crítica y reemplazamos nuestras creen-

cias. Frente al problema de la inducción, Popper propone una serie de reglas metodológicas que nos permiten decidir cuándo debemos rechazar una hipótesis.

Popper propone un método científico de conjetura por el cual se deducen las consecuencias ob-

servables y se ponen a prueba. Si falla la consecuencia, la hipótesis queda refutada y debe enton-

ces rechazarse. En caso contrario, si todo es comprobado, se repite el proceso considerando otras

consecuencias deducibles. Cuando una hipótesis ha sobrevivido a diversos intentos de refutación,

Page 77: TOMO I Estadística Descriptiva - anticiparconsultoria.comanticiparconsultoria.com/...cuando-hablamos-de-estadistica-I.pdf · TOMO I–Estadística Descriptiva Alberto A. Alonso ...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

65 | P á g i n a

cuestionadas o refutadas para comprobar su rigor.

Las teorías que generan muchas predicciones (y estas resultan de gran valor, tan-

to por su interés científico, como por sus aplicaciones) son fácil y rápidamente

confirmadas o falsadas, siendo las más deseables, en muchos campos científicos,

aquellas que con una cantidad pequeña de principios básicos predicen una gran

cantidad de sucesos.

La dificultad de predicción en numerosos campos de la ciencia

Algunos campos de la ciencia tienen una gran dificultad para efectuar prediccio-

nes y pronósticos exactos.

En algunos campos, la complejidad de los datos lo hace difícil, tal el caso de

pandemias, demografía, dinámica poblacional, climatología, desastres naturales

y, en general, todo lo relacionado con la meteorología.

RELACIONES

El concepto de relación, que tiene su origen en el término latino relatio, tiene

muchos y variados usos. En su forma más sencilla, una relación es una corres-

pondencia o conexión entre algo o alguien con otra cosa o persona.

Antes de profundizar en estos aspectos particulares de las relaciones, analizare-

mos algunas características generales de estas, a partir de las cuales podremos

comprender mejor el material específico acerca de la correlación.

Relaciones lineales

Para iniciar nuestro análisis de las relaciones, estudiaremos una relación lineal

entre dos variables. La Tabla XII.1 muestra la relación entre las cantidad de fert i-

lizante fosfatado utilizado en la producción de soja, expresada en kilogramos de

fertilizante por hectárea de cultivo ( X) y la producción de la citada oleaginosa,

expresada en kilogramos de soja recogida por hectárea sembrada ( Y).

Podemos analizar mejor la relación entre estas variables si trazamos un gráfico

utilizando valores de X y de Y, para cada condición de siembra, como los puntos

de dicha gráfica. Esta es un gráfico llamado de dispersión o dispersigrama o nu-

be de puntos. El método consiste en graficar por medio de puntos (intersección

de los pares de valores correspondientes) los valores de las variables X e Y, para

Continúa ...

se dice que está corroborada, pero esto no nos permite afirmar que ha quedado confirmada defini-

tivamente, sino sólo provisionalmente, por la evidencia empírica. Fuente:

http://es.wikipedia.org/wiki/Falsacionismo