Ordenacion y Distribucion de Datoss

12

Click here to load reader

Transcript of Ordenacion y Distribucion de Datoss

Page 1: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

63

TEMA 4. PARA QUÉ SIRVE LA ESTADÍSTICA.

ORDENACIÓN Y DISTRIBUCIÓN DE DATOS. REPRESENTACIONES GRÁFICAS

1. Para qué sirve la estadística 2. El papel de la estadística en el proceso de investigación 3. Organización de la información: ordenación y distribución de datos

3.1. Construcción de la base de datos 3.2. La tabla de frecuencias

3.2.1. Determinación del recorrido 3.2.2. Establecimiento de la amplitud de los intervalos 3.2.3. Construcción de la escala de intervalos 3.2.4. Recuento de frecuencias 3.2.5. Columna de frecuencias 3.2.6. Suma total de frecuencias

3.3. Representaciones gráficas 3.3.1. Diagrama de sectores 3.3.2. Polígono de frecuencias 3.3.3. Histograma 3.3.4. Diagrama de barras

Referencias bibliográficas

Pág. 64 Pág. 65 Pág. 67 Pág. 67 Pág. 68 Pág. 68 Pág. 68 Pág. 69 Pág. 70 Pág. 70 Pág. 70 Pág. 71 Pág. 71 Pág. 72 Pág. 73 Pág. 73 Pág. 74

Page 2: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

64

1. Para qué sirve la Estadística Todos los profesionales que se dedican a la Psicopedagogía, Pedagogía, Psicología y

ciencias afines, recogen gran número de datos de diversa índole. Muchos de ellos proceden de instrumentos de medición docente y psicopedagógica y su organización precisa de la incorporación de la estadística como estrategia de tratamiento y análisis. Es por ello que el conocimiento de la Estadística resulta imprescindible en la interpretación de dichos datos.

La Estadística es una ciencia que nos ayuda a recoger la realidad, cómo es, cómo ha sido

y cómo será. Asimismo, nos ayuda a recoger datos, organizarlos y visualizar los datos que los mismos aportan. En definitiva, ayuda a realizar tres tipos de tareas (Etxeberría y Tejedor, 2005):

1. A medir y reunir datos 2. A observar y analizar los datos recogidos 3. A extraer conclusiones y presentar los resultados. Supongamos que un o una profesional de la psicopedagogía realiza una serie de

mediciones y obtiene una serie de datos. ¿Qué hay que hacer para extraer el máximo de información de dichos datos? He aquí una lista de posibilidades:

a) Se pueden calcular las medias o promedios aritméticos. La media proporciona una

indicación del comportamiento característico del grupo. b) Se puede determinar la variabilidad de las observaciones. Empleando la media como

referencia, es posible determinar cómo se dispersan los datos u observaciones en torno a dicho valor central.

c) Se pueden preparar gráficas, tablas y figuras para describir claramente la naturaleza del grupo o de los grupos.

d) Es posible determinar la relación de una variable con otra. Estos estadígrafos se denominan coeficientes de correlación y su utilidad es enorme. Ejemplo: podría tener

interés hallar las relaciones entre los resultados de un test de inteligencia y el de los

exámenes de los alumnos de una clase; entre aptitudes e intereses, o entre varias

medidas de desarrollo físico.

Page 3: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

65

e) Se puede determinar la fiabilidad (la medida ha de ser consistente) de los instrumentos de medición. Se hacen dos series de mediciones con los mismos individuos con un mismo instrumento o dos instrumentos semejantes, y se halla la correlación entre ambas series de datos.

f) Se puede determinar la validez de las medidas (que mida el realmente el rasgo que queremos). Con respecto a la validez estadística, la correlación entre puntuaciones obtenidas según un test y las obtenidas en otra medición, llamada criterio, es un índice de validez. Ejemplo: los tests de inteligencia son valorados, a menudo,

correlacionando puntuaciones según estos tests con promedios de notas de

calificación. Si el test de inteligencia es válido, todos los sujetos que obtengan las

puntuaciones más elevadas, recibirán también las calificaciones académicas más

altas.

g) A partir de las mediciones de una muestra de individuos, se pueden obtener deducciones acerca de la población de la que procede dicha muestra. La inferencia estadística es una de las actividades principales de la investigación moderna en la extracción de conclusiones derivadas del uso de muestras.

h) Es posible comparar las actuaciones de dos o más grupos, y se puede comprobar la significación de cualquier diferencia entre ellos. Se aplica fundamentalmente en diseños experimentales.

2. El papel de la Estadística en el proceso de investigación A la hora de recoger y analizar los datos hay que tener en cuenta que esta información

está inserta en un trabajo de búsqueda sistemática de conocimiento en el que el contexto hay que ubicarlo dentro de los procesos de investigación científica hasta ahora estudiados.

Asimismo, conociendo cuáles son las fases de un proceso de investigación educativa, nos

preguntamos ¿cuál es el lugar exacto de la estadística en todo este proceso? Si bien es cierto que los dos papeles fundamentales son: a) La recogida, organización, descripción y resumen de los datos; y b) Generalización y contraste de hipótesis; hay que ser conscientes que hay que tenerla presente desde el planteamiento inicial del problema y terminar con una adecuada y fina extracción

Page 4: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

66

de conclusiones, así como con una correcta presentación de resultados. Si el problema está mal definido, no se han tenido en cuenta variables relevantes, el diseño está mal hecho o la medición no es la adecuada, no se puede solucionar el problema desde la estadística.

Tal y como revelan Etexeberría y Tejedor (2005), cuando se habla de la Estadística hay

que diferenciar entre dos grandes campos, la estadística descriptiva y la estadística inferencial:

• La Estadística Descriptiva tiene como objetivo recoger, organizar, resumir, describir y presentar los datos correspondientes a un conjunto de elementos.

• La Estadística Inferencial tiene como objetivo generalizar los resultados obtenidos en una muestra a la población objeto de estudio. Para poder hacer uso de esta generalización será imprescindible hacer uso de la teoría de la probabilidad.

Para poder ilustrar la especificidad de cada uno de estos dos campos, se muestran los

siguientes ejemplos: 1. Estadística Descriptiva: descripción de los resultados electorales que se produjeron la

jornada anterior a las elecciones. Estadística Inferencial: predicción de los resultados de las elecciones que se producirán próximamente.

2. Estadística Descriptiva: contar el número de pájaros que hay en una jaula. Estadística Inferencial: aproximación del número de flamencos que migran en invierno.

3. Estadística Descriptiva: comparación de los resultados académicos de un centro escolar de Córdoba y uno de Sevilla. Estadística Inferencial: comparación de los resultados académicos de todos los centros escolares de Córdoba con todos los de Sevilla, para los que se eligen cinco centros de cada localidad.

4. Estadística Descriptiva: análisis de las relaciones existentes entre tres variables medidas a los estudiantes de un determinado centro escolar. Estadística Inferencial: predicción de los resultados de una variable a partir de los valores de las otras dos.

Page 5: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

67

3. Organización de la información: ordenación y distribución de datos

Una vez reunida una colección de datos referentes a diferentes características que se pretenden estudiar, es el momento de comenzar a revisar esos datos. Estos serán organizados a lo largo de una base de datos que recogerá de forma sistemática y ordenada toda la información procedente de los distintos instrumentos de medida aplicados sobre los miembros que forman parte de la muestra objeto de estudio. A continuación, para una mejor interpretación de la información obtenida, esta será organizada mediante tablas de frecuencias y serán diseñadas diferentes representaciones gráficas como ayuda fundamental, y en ocasiones imprescindible, tanto para poder observar los datos como para presentar la información que aportan. 3.1. Construcción de la base de datos

Para elaborar una base de datos se han de tener presentes dos elementos básicos:

número de variables que intervienen en el estudio (independientes + dependientes) y número de participantes que forman parte de la muestra objeto de estudio.

La base de datos se construirá situando tantas columnas como variables intervienen en

la investigación y tantas filas como sujetos han respondido en la recogida de datos. Es recomendable situar las variables independientes juntas y en primer lugar, al igual que los sujetos deben estar agrupados por características de homogeneidad.

Variable 1 Variable 2 Variable 3 … Variable n Participante 1 Participante 2 Participante 3

… Participante n

Figura 1: Base de datos

Page 6: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

68

3.2. La tabla de distribución de frecuencias Supongamos que se ha aplicado una prueba de recogida de información de carácter

psicopedagógico a un grupo de alumnos y que las puntuaciones obtenidas son las que aparecen a continuación:

56 78 62 37 54 39 62 60 28 82 38 72 62 44 54 42 42 55 57 65 68 47 42 56 56 56 55 66 42 52 48 48 47 41 50 52 47 48 53 68

El proceso a seguir para construir una tabla de distribución de frecuencias es el siguiente:

3.2.1. Determinación el recorrido El recorrido es la diferencia entre las puntuaciones mayor y menor, aumentada en una

unidad. En la tabla 1, la puntuación mayor es 82 y la menor 28. En estadística suele utilizarse la letra “X” mayúscula para representar cualquier dato o puntuación bruta. El recorrido es, según la definición:

R = (XM – Xm) + 1

Aplicando la fórmula quedaría: R = (82 - 28) + 1 = 55

3.2.2. Establecimiento de la amplitud de los intervalos

Un criterio aceptado, en general, es considerar entre 10 y 20 intervalos. Si existen menos

de 10, la tosquedad del agrupamiento puede originar inexactitudes, y si existen más de 20, el trabajo puede complicarse demasiado. La amplitud del intervalo se determina mediante tanteos.

Page 7: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

69

Supongamos una amplitud de 5 unidades. Dicho valor 5, está contenido en 55,

exactamente 11 veces; de aquí que 5 sería aceptable como amplitud del susodicho intervalo. Puesto que un número entre 10 y 20 intervalos es adecuado, en la distribución de

frecuencias de la tabla 1 se puede adoptar la media entre 10 y 20, que es 15, dividiendo entonces el recorrido por este valor. Por tanto, el recorrido, 55, dividido entre 15 da un valor entre 3 y 4, y cualquiera de ellos podría adoptarse para la amplitud del intervalo (i).

Si se observan las distribuciones de frecuencias realizadas por otros autores, se deduce

que un número impar es más frecuente que uno par como unidades de un intervalo. La ventaja de ello reside en que los puntos medios de cada uno de los intervalos, es un número entero.

3.2.3. Construcción de la escala de intervalos

Supongamos que para los valores de la tabla 1 se adopta un intervalo de 5 unidades de

amplitud. Ello se indica escribiendo i = 5. El paso siguiente decidir donde comenzar. Un método corriente es comenzar por el

intervalo inferior con un número que sea múltiplo de la amplitud del intervalo. En el caso que nos ocupa, la puntuación más baja es 28 y la amplitud del intervalo vale 5, de modo que el intervalo inferior comenzaría entre 25 y acabaría en 29.

Después de adoptar los límites del intervalo inferior, se determinan los demás intervalos

aumentando cada límite entero en 5 unidades. Al llegar al intervalo 80-84, que contiene la puntuación mayor de la distribución, se da por finalizada la escala de intervalos.

Page 8: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

70

3.2.4. Recuento de frecuencias

Se considerarán las puntuaciones una por una, y se van anotando a la derecha del

intervalo correspondiente haciendo una marca para cada una de ellas.

3.2.5. Columna de frecuencias Encabezada por la letra “f”, se sumarán todas las marcas incluidas en cada intervalo y se

situarán en una columna a la derecha de las marcas.

3.2.6. Suma total de frecuencias

En la parte inferior de la columna de frecuencias se anota la suma de todas ellas. Esta

debe coincidir con el número total de casos o puntuaciones. Se simboliza con: Σ(f) ó N. La tabla

quedaría como sigue: Intervalos marcas f 80-84 / 1 75-79 / 1 70-74 / 1 65-69 //// 4 60-64 //// 4 55-59 /////// 7 50-54 ////// 6 45-49 ////// 6 40-44 ////// 6 35-39 /// 3 30-34 0 25-29 / 1 Σ(f) = 40

Page 9: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

71

3.3. Representaciones gráficas

Las representaciones gráficas constituyen un instrumento imprescindible en la estadística, ayudan a visualizar los datos y aportan un tipo de información acerca de los mismos que de otra forma sería posible identificar. Las más utilizadas son: diagrama de sectores, polígono de frecuencias, diagrama de barras e histograma. Veamos algunos ejemplos. 3.3.1. Diagrama de sectores

Esta representación se emplea básicamente para representar las frecuencias de las variables cualitativas, ordinales o numéricas discretas, así como para representar los valores medios de variables cuantitativas numéricas de una parable cualitativa.

En el primero de los casos, se trata de dividir la superficie de un círculo e forma

proporcional a las frecuencias de cada una de las categorías de la variable. En el segundo, se divide la superficie del círculo de forma proporcional a los valores medios de la variable en cada una de las categorías.

Page 10: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

72

3.3.2. Polígono de frecuencias De todos los artificios empleados para representar gráficamente las distribuciones

estadísticas, el polígono de frecuencias es el más común. Para el trazado del polígono hay que considerar que se emplean dos ejes. El vertical se

llama eje Y, y los valores a lo largo de él son las ordenadas. El otro eje se llama eje X, y las distancias a lo largo de él son las abscisas. El eje X es horizontal y perpendicular al eje Y en un punto llamado origen (0). En la realización práctica del polígono de frecuencias, el eje X suele ser de más longitud que el eje Y. Suele emplearse la razón de 3 a 2, o de 4 a 3.

Al construir un polígono de frecuencias, los valores de éstas se llevan siempre sobre el eje

Y. Por ello, dicho eje vertical se nombra con la letra “f”. Los datos o puntuaciones se llevan sobre el eje X.

El siguiente paso consiste en representar las frecuencias. Hay que tener en cuenta que el

punto medio es el mejor valor para representar a cualquier intervalo. Los valores de las frecuencias se llevan perpendicularmente y hacia arriba a partir de los puntos medios de cada uno de los correspondientes intervalos de clase. Quedaría únicamente unir los puntos para formar el polígono de frecuencias. Según los datos del ejemplo seguido en este tema para la construcción de la tabla de frecuencias, el polígono quedaría como sigue:

25 30 35 40 45 50 55 60 65 70 75 80 85

0

1

2

3

4

5

6

7

8

Page 11: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

73

3.3.3. Histograma Se procede de forma análoga que en el polígono de frecuencias, aunque se ha de tener

presente que las barras se levantan ocupando los límites reales de cada intervalo. Igualmente, es preciso indicar el punto medio de cada intervalo o los límites de cada uno de ellos. Se utiliza cuando la variable que se desea representar está medida es una escala de razón o de intervalos (variable cuantitativa)

Nivel intelectual51484542393633302724211815129

Frec

uenc

ia

10

8

6

4

2

0

Media =21,17�Desviación típica =6,635�

N =36

3.3.4. Diagrama de barras

La diferencia existente entre esta gráfico y el histograma residen en que la información recogida en el eje de abscisas (x) hace referencia a categorías de variables de tipo cualitativo y el eje de ordenadas (y) representa la frecuencia de aparición de cada una de las categorías anteriormente reflejada.

Page 12: Ordenacion y Distribucion de Datoss

Métodos de Investigación en Educación Tema 4

74

ProcedenciaGranadaSevillaCórdoba

Frec

uenc

ia

25

20

15

10

5

0

Este diagrama posee dos aplicaciones principales, en primer lugar, sirve para representar

las frecuencias de las variables cualitativas, ordinales o numéricas discretas y, en segundo lugar, representar los valores medios de las variables cuantitativas numéricas en diferentes categorías de una variable cualitativa.

Referencias bibliográficas Etxeberría, J. y Tejedor, F.J. (2005). Análisis descriptivo de datos en educación. Madrid: La Muralla.