Tema1 (1ª parte)

57
TEMA 1 TEMA 1 El análisis estadístico de datos El análisis estadístico de datos Probabilidades y Estadística I

Transcript of Tema1 (1ª parte)

TEMA 1TEMA 1

El análisis estadístico de datosEl análisis estadístico de datos

Probabilidades y Estadística I

Esquema inicial

1 Introducción1. Introducción.

2. Variables y datos. Tipos de datos.y p

3. Descripción de datos mediante tablas.

4. Descripción de datos mediante gráficos.

5. Introducción al análisis exploratorio de datos.

Probabilidades y Estadística I

Esquema inicial

1 Introducción1. Introducción.

2. Variables y datos. Tipos de datos.2. Variables y datos. Tipos de datos.2. Variables y datos. Tipos de datos.y py py p

3. Descripción de datos mediante tablas.3. Descripción de datos mediante tablas.3. Descripción de datos mediante tablas.

4. Descripción de datos mediante gráficos.4. Descripción de datos mediante gráficos.4. Descripción de datos mediante gráficos.

5. Introducción al análisis exploratorio de datos.5. Introducción al análisis exploratorio de datos.5. Introducción al análisis exploratorio de datos.

Probabilidades y Estadística I

1. Introducción (1/6)

Seis objetivos de la Estadística Descriptiva

A. Recoger y organizar datos (observaciones)

Calificaciones de “Probabilidades y Estadística” en 20 alumnos

x1, x2,..., xn5.12, 7, 8.62, 6, 2.88, 7.33, 2.08, 2.75, 5.25, 5, 6.88, 5.83, 5, 3.38, 6.25, 6.12, 6, 4.62, 6.62, 8.5

(x y ) (x y ) (x y )

Calificaciones de “Probabilidades y Estadística” y nº de convocatorias utilizadas hasta ahora

(x1, y1), (x2, y2),…,(xn,, yn) (5.12, 2), (7, 1), (8.62, 2), (6, 3), (2.88, 2),(7.33, 2), (6, 3), (2.75, 4) (5.25, 2), (5, 1),(6.88, 5) (5.83, 1), (5, 4), (3.38,4), (6.25, 3), (6.12, 1), (6, 2), (4.62, 3), (6.62, 2), (8.5, 1)

Probabilidades y Estadística I

1. Introducción (2/6)

Seis objetivos de la Estadística Descriptiva

B. Técnicas de visualización para datos multivariantes (visualización)

Probabilidades y Estadística I

1. Introducción (3/6)

Seis objetivos de la Estadística Descriptiva

C. Esquematizar el comportamiento de los datos mediante tablas, áfi dib j ( t )gráficos o dibujos (patrones)

Probabilidades y Estadística I

1. Introducción (4/6)

Seis objetivos de la Estadística Descriptiva

D. Resumir la información en unos pocos datos representativos ( í t i )(síntesis)

Probabilidades y Estadística I

1. Introducción (5/6)

Seis objetivos de la Estadística Descriptiva

E. Analizar la relación de dependencia entre las componentes de d t ltidi i l ( l ió )datos multidimensionales (correlación)

Probabilidades y Estadística I

1. Introducción (6/6)

Seis objetivos de la Estadística Descriptiva

F. Interpretar la información obtenida (aprendizaje)

Probabilidades y Estadística I

Esquema inicial

111 IntroducciónIntroducciónIntroducción1.1.1. Introducción.Introducción.Introducción.

2. Variables y datos. Tipos de datos.y p

3. Descripción de datos mediante tablas.3. Descripción de datos mediante tablas.3. Descripción de datos mediante tablas.

4. Descripción de datos mediante gráficos.4. Descripción de datos mediante gráficos.4. Descripción de datos mediante gráficos.

5. Introducción al análisis exploratorio de datos. 5. Introducción al análisis exploratorio de datos. 5. Introducción al análisis exploratorio de datos.

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos (1/12)

Enunciados genéricosEnunciados genéricos

Sea x1, x2,….., xn un conjunto de n valores numéricos

Sea (x1, y1), (x2, y2),….., (xn, yn)

Sea 1 1 1 2 2 21 2 1 2 1 2( , ,..., ), ( , ,..., ),......, ( , ,..., )n n n

m m mx x x x x x x x x

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos (2/12)

Enunciado académico 1CASO

UNIDIMENSIONALEnunciado académico 1

Se seleccionan 20 alumnos de la Facultad de Informática con la asignatura “Probabilidad y Estadística” aprobada. Se recoge información sobre el número deconvocatorias que necesitaron para aprobar dicha asignatura.

2, 3, 2, 1, 1, 3, 4, 3, 1, 1, 2, 1, 2, 1, 3, 1, 3, 2, 1, 5x1, x2, x3, x4, x5, x6, x7, x8, x9, x10, x11, x12, x13, x14, x15, x16, x17, x18, x19, x20

X “ ú d t i b P b bilid d E t dí ti ”X “número de convocatorias para aprobar Probabilidad y Estadística”

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos (3/12)

Enunciado académico 1’CASO

BIDIMENSIONALEnunciado académico 1

Se seleccionan 20 alumnos de la Facultad de Informática con la asignatura “Probabilidad y Estadística” aprobada. Se recoge información sobre el número deconvocatorias que necesitaron para aprobar dicha asignatura y su calificación

(2,5.0),(3,6.3),(2,5.2),(1,7.0),(1,8.2),(3,5.4),(4,5.0),(3,6.8),(1,5.0),(1,7.3)(2,6.0),(1,7.5),(2,5.0),(1,7.8),(3,6.2),(1,6.0),(3,8.0),(2,6.6),(1,5.0),(5,5.0)

(x1,y1), (x2,y2),….., (x20,y20)

(X,Y)

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos (4/12)

Enunciado académico 2DATOS

CUALITATIVOSEnunciado académico 2

Se lanza 20 veces una moneda y se observan los resultados.

cara, cruz, cruz, cruz, cara, cruz, cruz, cara, cara, cruzcara, cara, cruz, cruz, cruz, cruz, cara, cara, cruz, cruz

C

0, 1, 1, 1, 0, 1, 1, 0, 0, 1, , , , , , , , ,0, 0, 1, 1, 1, 1, 0, 0, 1, 1

XProbabilidades y Estadística I

X

2. Variables y datos. Tipos de datos (5/12)

Glosario de términosGlosario de términos

1. Población (universo, colectivo)

2. Muestra

3 C á t

4. Modalidades

3. Carácter

5. Variables estadísticas

Probabilidades y Estadística I

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos (6/12)

Enunciado académico 1a

VARIABLE ESTADÍSTICA

DISCRETAEnunciado académico 1a

Se seleccionan 20 alumnos de la Facultad de Informática con la asignatura

DISCRETA

“Probabilidad y Estadística” aprobada. Se recoge información sobre el número deconvocatorias que necesitaron para aprobar dicha asignatura

PoblaciónMuestra

Carácter a estudio

MODALIDADES: {1,2,3,......} (carácter cuantitativo)

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos (7/12)

Enunciado académico 1b

VARIABLE ESTADÍSTICA

CONTINUAEnunciado académico 1b

Se seleccionan 20 alumnos de la Facultad de Informática con la asignatura

CONTINUA

“Probabilidad y Estadística” aprobada. Se recoge información sobre su nota en laAsignatura.

Carácter a estudio

MODALIDADES: [5,10] (carácter cuantitativo)

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos (8/12)

Enunciado académico 1cMEDIDA

NOMINALEnunciado académico 1c

Se seleccionan 20 alumnos de la Facultad de Informática con la asignatura “Probabilidad y Estadística” aprobada. Se recoge información sobre su color deojos.

Carácter a estudio

MODALIDADES: {negros, marrones, azules, otros} (carácter cualitativo)1 2 3 4

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos (9/12)

Tipos de caracteresMEDIDA

ORDINALEnunciado académico 1dTipos de caracteres

Se seleccionan 20 alumnos de la Facultad de Informática con la asignatura

Enunciado académico 1d

“Probabilidad y Estadística” aprobada. Se recoge información sobre el nivelde estudio de su padre .

Carácter a estudio

MODALIDADES: {SE, EGB, BUP, Universitario} (carácter cualitativo)1 2 3 4

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos (10/12)

Enunciado académico 2MEDIDA

NOMINALEnunciado académico 2

Se lanza 20 veces una moneda y se observan los resultados.

Población: Lanzar una moneda (experimento aleatorio)Población: Lanzar una moneda (experimento aleatorio)

Muestra: 20 lanzamientos

MODALIDADES: {C, X} (carácter cualitativo)

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos (11/12)

NOTACIÓNNOTACIÓN

1. Población (universo, colectivo) P

2. Muestra

3 C á t

M P

C

4. Modalidades

3. Carácter C

C1, C2,…., Ck

5. Variables estadísticas X

x’1, x’2,…., x’k k valores dif1, 2, , k diferentes

Probabilidades y Estadística I

21

2

1

1

1 11

2

123

Probabilidades y Estadística I

Ejemplo de lego

NOTACIÓNNOTACIÓN

1. Población (universo, colectivo) Piezas del lego

2. Muestra

3 C á t

Subconjunto de 10 piezas

C l

4. Modalidades

3. Carácter Color

rojo, azul, verde

5. Variables estadísticas X

1, 2, 3 3 valores dif

, ,diferentes

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos

Glosario de términosGlosario de términos

1. Población (universo, colectivo)

2. Muestra

3 C á tCualitativo

4. Modalidades

3. CarácterCuantitativo

Di t5. Variables estadísticas

Discreta

ContinuaModalidades = Rango

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos

Glosario de términosGlosario de términos

1. Población (universo, colectivo)1. Población (universo, colectivo)1. Población (universo, colectivo)

2. Muestra2. Muestra2. Muestra

3 C á tCualitativo

Cuantificación Medida nominal

Medida ordinal

4. Modalidades4. Modalidades4. Modalidades

3. CarácterCuantitativoCuantitativoCuantitativo

Di tDi tDi t

Medida ordinal

5. Variables estadísticas5. Variables estadísticas5. Variables estadísticasDiscretaDiscretaDiscreta

ContinuaContinuaContinuaModalidades = RangoModalidades = RangoModalidades = Rango

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos

Glosario de términosGlosario de términos

1. Población (universo, colectivo)1. Población (universo, colectivo)1. Población (universo, colectivo)

2. Muestra2. Muestra2. Muestra

3 C á t3 C á t3 C á tCualitativoCualitativoCualitativo

Medida de intervalo

4. Modalidades4. Modalidades4. Modalidades

3. Carácter3. Carácter3. CarácterCuantitativo

Di tDi tDi t

Medida de intervalo

Medida de razón

5. Variables estadísticas5. Variables estadísticas5. Variables estadísticasDiscretaDiscretaDiscreta

ContinuaContinuaContinuaModalidades = RangoModalidades = RangoModalidades = Rango

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos

Medida Operacionesposibles

Requisitos Ejemplo.

Nominal Verificar la igualdad Posibilidad de Estado civil SexoNominal Verificar la igualdadde dos modalidades.

Posibilidad depermutar

modalidades

Estado civil, Sexo,nacionalidad.

O di l Verificar si una Mantenimiento del Gravedad de una

Caracterescualitativos

Ordinal modalidad es mayorque otra.

Mantenimiento delorden

Gravedad de unalesión.

De intervalo Comparar lasdif i d

Unidad constante Temperatura.De intervalo diferencias entre dosmodalidades.

Unidad constante Temperatura.

De razónEstablecer razones

d lid d Existencia de cero Peso, altura...

Caracterescuantitativos

De razón entre modalidades absoluto,

Probabilidades y Estadística I

2. Variables y datos. Tipos de datos

Relaciones entre medidasRelaciones entre medidas

MEDIDA MEDIDA MEDIDA MEDIDA NOMINAL ORDINAL DE INTERVALO DE RAZÓN

Probabilidades y Estadística I

Pregunta de test

Probabilidades y Estadística I

Esquema inicial

111 IntroducciónIntroducciónIntroducción1.1.1. Introducción.Introducción.Introducción.

2. Variables y datos. Tipos de datos.2. Variables y datos. Tipos de datos.2. Variables y datos. Tipos de datos.y py py p

3. Descripción de datos mediante tablas (caso unidimensional)

4. Descripción de datos mediante gráficos.4. Descripción de datos mediante gráficos.4. Descripción de datos mediante gráficos.

5. Introducción al análisis exploratorio de datos.5. Introducción al análisis exploratorio de datos.5. Introducción al análisis exploratorio de datos.

Probabilidades y Estadística I

3. Descripción de datos mediante tablas (1/8)

PATRONES NUMÉRICOS

SERIE 1 3 3 3 3 3 3 3 3 3 3

PATRONES NUMÉRICOS

Ct 3SERIE 1 3, 3, 3, 3, 3, 3, 3, 3, 3, 3

SERIE 2 2 4 6 8 10 12

Cte = 3

Xn = 2n n = 1,2,3....SERIE 2 2, 4, 6, 8, 10, 12

SERIE 3 1, 2, 2, 3, 3, 3, 4, 4, 4, 4

n , ,

n veces el número “n”

SERIE 4 1, 2, 1, 1, 2, 3, 2, 1, 1, 1

Probabilidades y Estadística I

3. Descripción de datos mediante tablas (2/8)

PATRONES NUMÉRICOSPATRONES NUMÉRICOS

SERIE 4 Seis “1”Tres “2”U “3”

REPETICIONES(Tablas)

Un “3”

REPETICIONES(Gráficos)

Probabilidades y Estadística I

3. Descripción de datos mediante tablas (3/8)

DATOS UNIDIMENSIONALES

Modalidad Frecuencia absoluta

Frecuencia absoluta acumulada

Frecuencia relativa

Frecuencia relativa acumulada

DATOS UNIDIMENSIONALES

absoluta acumulada relativa acumuladax’1 n1 N1=n1 f1 = n1/n F1 = f1

x’2 n2 N2=n1 + n2 f2 = n2/n F2= f1 + f2... ... ... ... ...

x’i ni Ni = n jj

i

1f1 = ni/n Fi= f j

j

i

1

... ... ... ... ...

x’ n N = k

n f / F = f j

n = 1x k nk Nk =

jjn

1fk = nk/n Fk= f j

j

1= 1

TOTALES n 1

Probabilidades y Estadística I

SERIE 4 1, 2, 1, 1, 2, 3, 2, 1, 1, 1

Modalidad Frecuencia absoluta

Frecuencia absoluta acumulada

Frecuencia relativa

Frecuencia relativa acumulada

1 6 6 6/10 = 0.60 0.60

2 3 9 0.30 0.90

3 1 10 0.10 1

TOTALES 10 1

Probabilidades y Estadística I

3. Descripción de datos mediante tablas (4/8)

EJEMPLO 1

POBLACIÓN: Alumnos de la Facultad de Informática

EJEMPLO 1

MUESTRA: 20 Alumnos con la asignatura “Probabilidad y Estadística”aprobada

VARIABLE ESTADÍSTICA: X nº de convocatorias

RANGO: Rg X {1 2 3 }RANGO: Rg X = {1,2,3,......}

SERIE: 5, 3, 1, 2, 1, 3, 1, 3, 5, 1, 2, 1, 1, 1, 2, 4, 5, 1, 2, 1

SERIE ORDENADA: 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 5, 5, 5

Probabilidades y Estadística I

3. Descripción de datos mediante tablas (5/8)

EJEMPLO 1

Nº deconvocatorias

Frecuenciaabsoluta

Frecuencia absolutaacumulada

Frecuenciarelativa

Frecuencia relativaacumulada

EJEMPLO 1

convocatorias absoluta acumulada relativa acumulada

1 9 9 9/20 = 0.45 0.45

2 4 13 0 20 0 652 4 13 0.20 0.65

3 3 16 0.15 0.80

4 1 17 0.05 0.85

5 3 20 0.15 1

TOTALES 20 1

Probabilidades y Estadística I

3. Descripción de datos mediante tablas (6/8)

EJEMPLO 2

POBLACIÓN: Alumnos de la Facultad de Informática

MUESTRA: 20 Alumnos presentados a una convocatoria de la asignatura “Probabilidades y Estadística”

VARIABLE ESTADÍSTICA: X calificación en “P y E”

RANGO: Rg X = [0,10]

SERIE: 5.12, 7, 8.62, 6, 2.88, 7.33, 2.08, 2.75, 5.25, 5, 6.88, 5.83, 5, 3.38, 6.25, 6.12, 6, 4.62, 6.62, 8.5

SERIE ORDENADA: 2.08, 2.75, 2.88, 3.88, 4.62, 5, 5, 5.12, 5.25, 5.83, 6,6 6 12 6 25 6 62 6 88 7 7 33 8 5 8 62

Probabilidades y Estadística I

6, 6.12, 6.25, 6.62, 6.88, 7, 7.33, 8.5, 8.62

3. Descripción de datos mediante tablas (7/8)

EJEMPLO 2Calificaciones

(clases)Marcas de

claseFrecuencia

absolutaFrecuencia absoluta

acumuladaFrecuencia

relativaFrecuencia relativa

acumulada

[ 0, 1 ] 0.5 0 0 0 0

( 1, 2 ] 1.5 0 0 0 0

( 2, 3 ] 2.5 3 3 0.15 0.15

( 3, 4 ] 3.5 1 4 0.05 0.20

( 4, 5 ] 4.5 3 7 0.15 0.35

( 5, 6 ] 5.5 5 12 0.25 0.60

( 6, 7 ] 6.5 5 17 0.25 0.85

( 7, 8 ] 7.5 1 18 0.05 0.90

( 8, 9 ] 8.5 2 20 0.10 1

( 9, 10 ] 9.5 0 20 0 1

TOTALES 20 1

Probabilidades y Estadística I MODALIDADESx’i

3. Descripción de datos mediante tablas (7/8)

EJEMPLO 2Calificaciones

(clases)Marcas de

claseFrecuencia

absolutaFrecuencia absoluta

acumuladaFrecuencia

relativaFrecuencia relativa

acumulada

[ 0, 1 ] 0.5 0 0 0 0

( 1, 2 ] 1.5 0 0 0 0

( 2, 3 ] 2.5 3 3 0.15 0.15

( 3, 4 ] 3.5 1 4 0.05 0.20

( 4, 5 ] 4.5 3 7 0.15 0.35

( 5, 6 ] 5.5 5 12 0.25 0.60

( 6, 7 ] 6.5 5 17 0.25 0.85

( 7, 8 ] 7.5 1 18 0.05 0.90

( 8, 9 ] 8.5 2 20 0.10 1

( 9, 10 ] 9.5 0 20 0 1

TOTALES 20 1

Probabilidades y Estadística I MODALIDADESx’i

3. Descripción de datos mediante tablas (8/8)

AGRUPAMIENTO EN CLASESAGRUPAMIENTO EN CLASES

Probabilidades y Estadística I

Pregunta de test

Probabilidades y Estadística I

Esquema inicial

111 IntroducciónIntroducciónIntroducción1.1.1. Introducción.Introducción.Introducción.

2. Variables y datos. Tipos de datos.2. Variables y datos. Tipos de datos.2. Variables y datos. Tipos de datos.y py py p

3. Descripción de datos mediante tablas.3. Descripción de datos mediante tablas.3. Descripción de datos mediante tablas.

4. Descripción de datos mediante gráficos (caso unidimensional)

5. Introducción al análisis exploratorio de datos.5. Introducción al análisis exploratorio de datos.5. Introducción al análisis exploratorio de datos.

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (1/13)

Medidas nominales. Datos categóricos VARIABLE ESTADÍSTICA

DISCRETA1. Diagrama de sectores

DISCRETA

17,05%

No presentados

34,09%

No presentadosAprobadosSuspensos

48 86%48,86%

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (2/13)

Medidas nominales. Datos categóricos VARIABLE ESTADÍSTICA

DISCRETA2. Diagrama de rectángulos

DISCRETAol

utas

40

50

uenc

ias A

bso

20

30

Frec

u

0

10

Europa América Asia Africa Oceanía

Continentesp

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (3/13)

3 PictogramasMedidas nominales. Datos categóricos VARIABLE

ESTADÍSTICA DISCRETA3. Pictogramas

3. PictogramasDISCRETA

Bélgica

Italia

Francia

España

Probabilidades y Estadística I 0 10 20 30 40 50

4. Descripción de datos mediante gráficos (4/13)

Medidas ordinales e intervalar/razón VARIABLE ESTADÍSTICA

DISCRETA1. Diagrama de barras

DISCRETA

Representacióndiferencial

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (5/13)

Medidas ordinales e intervalar/razón VARIABLE ESTADÍSTICA

DISCRETA2. Función de distribución escalonada

DISCRETA

Representaciónintegral

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (6/13)

Medidas intervalar/razón VARIABLE ESTADÍSTICA

CONTÍNUA1. Histogramas (polígono de frecuencias)

CONTÍNUA

Representacióndiferencial

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (7/13)

Medidas intervalar/razón

2. Diagrama tallo-hoja

44, 45, 46, 46, 47, 48, 49, 50, 50, 50, 52, 52, 52, 52, 53, 53, 53, 54, 54, 54, , , , , , , , , , , , , , , , , , , , ,55, 55, 55, 55, 56, 56, 56, 57, 60, 60, 60, 60 ,60, 61, 61, 62, 62, 63, 64, 64, 64, 65, 65, 65, 66, 67, 68, 68, 68, 70, 70, 70, 70, 71, 72, 72, 74, 75, 80, 93.

Análisis Exploratorio de Datos

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (8/13)

Stem-and-Leaf Display for IPC: unit = 1,0 1|2 represents 12,0

10 0|1222333344 (9) 0|555556779 5 1|

5 1|5 5 1|5

HI|16,3 20,1 32,7 40,5 4 [3’5,4’5)

VALORES ATÍPICOS POR EXCESO

FRECUENCIAS ABSOLUTAS ACUMULADAS

Probabilidades y Estadística I

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (9/13)

Histograma vs. Tallo-hojabs

ol 8

10

Frec

. Ab

2

4

6

IPC0 4 8 12 16

0

2

IPC

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (10/13)

Catálogo de perfiles

1,2

0,8

1,

0 2

0,4

0,6

0 1 2 3 40

0,2

Perfil de datos sin tratar

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (11/13)

Catálogo de perfiles

0 4

0,3

0,4

0,1

0,2

-5 -3 -1 1 3 50

Forma de campana

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (12/13)

Catálogo de perfiles

0,11,2

0 04

0,06

0,08

0 6

0,8

1

0

0,02

0,04

0

0,2

0,4

0,6

0 10 20 30 40 50 600

0 1 2 3 40

Asimétrico desplazado a la dcha

Probabilidades y Estadística I

4. Descripción de datos mediante gráficos (13/13)

Medidas intervalar/razón VARIABLE ESTADÍSTICA

CONTÍNUA3. Función de distribución (polígono acumulativo)

CONTÍNUA

Probabilidades y Estadística I