2
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste esta guiacutea
A ver si te suena esta situacioacuten
Has oiacutedo hablar de estadiacutestica alguna vez O incluso has estudiado alguna asignatura en la
universidad Pero llega el momento de la verdadhellip y no sabes ni por doacutende empezar
No sabes queacute teacutecnica aplicar ni coacutemo utilizar la estadiacutestica como tu mejor aliada Quizaacute ahora
mismo es tu peor pesadilla
Te sientes perdido y sin saber coacutemo enfocar el anaacutelisis de datos que te llevaraacute al eacutexito de tu
proyecto y como profesional investigador
Si es asiacute iexclvamos bien Quiero ayudarte a desbloquear tu mente y a utilizar la estadiacutestica como lo que
es una herramienta para brillar como investigador
Voy abordar una preocupacioacuten muy recurrente y seguramente es la que te inquieta ahora mismo
No sabes queacute teacutecnicameacutetodo estadiacutestico aplicar para analizar tus datos ni coacutemo abordar un
proyecto real de anaacutelisis de datos
Para ayudarte a resolver esta inquietud voy a darte 5 plantillas para que puedas aclarar 5 aspectos
que te permitiraacuten solventar esta preocupacioacuten
Te listo estos 5 puntos y asiacute los veraacutes maacutes claro
1- iquestCuaacuteles son las etapas de un proceso completo de anaacutelisis de datos
2- iquestQueacute es una tabla de datos y coacutemo estaacute ordenada
3- iquestCoacutemo puedo interpretar los datos (La Exploracioacuten)
4- iquestQueacute teacutecnica estadiacutestica aplico en cada caso (El Anaacutelisis)
5- iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Las explicaciones de estos puntos las he resumido en formato plantillas A continuacioacuten te muestro
estas planillas que te comentaba
3
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEN QUEacute CONSISTE ESTA GUIacuteA 2
PLANTILLA 1 ndash EL CAMINO A SEGUIR 5
ETAPA 1 ndash EL PROBLEMA 6
ETAPA 2 ndash LA RECOLECCIOacuteN 6
ETAPA 3 ndash LA LIMPIEZA 6
ETAPA 4 ndash LA EXPLORACIOacuteN 7
ETAPA 5 ndash EL ANAacuteLISIS 7
ETAPA 6 ndash LA CONCLUSIOacuteN 7
PLANTILLA 2 ndash LA MATERIA PRIMA 8
LOS ELEMENTOS DE UNA TABLA DE DATOS 9
LA CLASIFICACIOacuteN DE LAS VARIABLES 10
Variables numeacutericas de escala 10
Variables categoacutericas 10
Variables Ordinales 10
PLANTILLA 3 ndash LA EXPLORACIOacuteN 11
GRAacuteFICOS Y CARACTERIacuteSTICAS 12
LA DISTRIBUCIOacuteN 12
LAS RELACIONES ENTRE VARIABLES 13
LAS TABLAS DE CONTINGENCIA 13
LA GUIacuteA DE LA EXPLORACIOacuteN 14
iquestEN QUEacute CONSISTE LA GUIacuteA DE LA EXPLORACIOacuteN 15
CASO 1 ndash 1 VARIABLE NUMEacuteRICA 16
Resumen numeacuterico 17
Graacuteficos de la distribucioacuten 17
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE CATEGOacuteRICA 19
Boxplot 20
Histograma de densidad 20
CASO 3 ndash 2 O MAacuteS VARIABLES NUMEacuteRICAS 21
Diagrama de dispersioacuten o scatterplot 22
Matrixplot 22
Diagrama de correlacioacuten 22
Diagrama hiacutebrido 22
CASO 4 ndash 2 O MAacuteS VARIABLES NUMEacuteRICAS + 1 CATEGOacuteRICA 24
CASO 5 ndash VARIABLES CATEGOacuteRICAS 26
Tablas de contingencia 27
Balloon plot 27
Diagrama de barras 27
Diagrama de sectores 27
PLANTILLA 4 ndash EL ANAacuteLISIS 28
ESTADIacuteSTICA INFERENCIAL 29
CONTRASTE DE HIPOacuteTESIS 29
La Ficha del Contraste de Hipoacutetesis 31
2 TIPOS DE TEST ESTADIacuteSTICOS 34
EL MAPA MENTAL DEL ANAacuteLISIS 34
LA GUIacuteA DEL ANAacuteLISIS 36
iquestEN QUEacute CONSISTE LA GUIacuteA DEL ANAacuteLISIS 37
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO 39
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO 41
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS PROPORCIONES 42
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA TABLA DE CONTINGENCIAS 44
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES NUMEacuteRICAS 46
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES 48
4
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE PRUEBAS PARAMEacuteTRICAS 50
PLANTILLA 5 ndash EL SOFTWARE 52
iquestQUEacute SOFTWARE UTILIZO 53
iquestCOacuteMO UTILIZO EL SOFTWARE 54
iquestCOacuteMO APLICAR TODO ESTO EN TU BASE DE DATOS 55
5
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
iquestCuaacuteles son las etapas de un proceso completo de Anaacutelisis de Datos
Tener la visioacuten global de un proceso completo de Anaacutelisis de Datos es fundamental Y quiero que lo
veas como una transformacioacuten de informacioacuten
Es decir partes del estado inicial plantear el problema y los objetivos
Y pasas un estado final listas conclusiones basadas en datos reales para poder resolver el
problema planteado en la etapa inicial
6
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Te muestro las 6 etapas de un proceso global de anaacutelisis de datos des del punto de vista de la
transformacioacuten de los datos
Etapa 1 ndash El Problema
Todo nace de un problema de una necesidad real Tu estudio tu proyecto parte de esta premisa
Entender mejor la realidad y solucionar el problema que te preocupa Este es tu objetivo como
Analista de Datos
En esta etapa definiraacutes el foco del estudio
Es decir queacute problema quieres abordar y definiraacutes el objetivo del estudio
Etapa 2 ndash La Recoleccioacuten
Es el disentildeo de un meacutetodo de recoleccioacuten de informacioacuten Maacutes teacutecnicamente es un proceso de
experimentacioacuten
Puede ser una encuesta pruebas en laboratorios con pacientes nutrirse de datos de marketing en
redes sociales etc
En definitiva es un plan de observacioacuten de la realidad para poder obtener DATOS
Etapa 3 ndash La Limpieza
Los DATOS son observaciones de la realidad y es un metal precioso en bruto Es necesario pulirlo
y encontrar lo maacutes apreciado
En esta etapa te encargaraacutes de homogeneizar los datos en cuanto a formato deshacer
observaciones que no te interesan y almacenar las maacutes uacutetiles
7
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Etapa 4 ndash La Exploracioacuten
Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden
entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva
(ED)
Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas
sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y
raacutepida
Etapa 5 ndash El Anaacutelisis
Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como
investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas
estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te
interesan
La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor
aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo
conjunto de la realidad la muestra
En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande
(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de
hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la
prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros
Etapa 6 ndash La Conclusioacuten
Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten
maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes
planteado en la etapa 1
8
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
iquestQueacute es una tabla de datos y coacutemo estaacute ordenada
El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad
tablas o matrices es una verdadera revelacioacuten
Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en
columnas es otra clave
En esta plantilla veraacutes
- Coacutemo es una tabla de datos
- Queacute son las variables y las observaciones
- Queacute tipo de variables son las maacutes comunes en la praacutectica
9
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como
la materia prima
Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como
empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones
cristalinas que resolveraacuten gran parte de tus inquietudes
Los elementos de una tabla de datos
El punto de partida de un buen anaacutelisis
son tus DATOS limpios en forma de
tabla Vale pero iquestqueacute es una base de
datos De hecho ya te lo he definido
Es una tabla con filas y columnas Como
una matriz Y cada celda contiene un
coacutedigo alfanumeacuterico
Las filas son observaciones de
la realidad
Las columnas son variables
Las variables son caracteriacutesticas
Pueden ser longitud temperatura
densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de
enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar
es una variable
Las observaciones son las distintas mediciones de las variables Pueden ser personas
animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final
para resumirlo observaciones de la realidad
Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten
tendraacutes
En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se
simbolizan con la letra n pequentildea
10
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
La clasificacioacuten de las variables
Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales
Variables numeacutericas de escala
Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)
edad (antildeos) etc
A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad
B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros
Variables categoacutericas
Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador
nombre del instituto
A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y
bajo grande pequentildeo etc
B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades
carrera estudiada
Variables Ordinales
Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo
regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave
muy grave
11
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
iquestCoacutemo puedo interpretar los datos
El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis
Y para miacute la exploracioacuten tiene un sentido muy muy importante
En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo
visual como graacuteficos o en caracteriacutesticas sencillas de entender
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
3
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEN QUEacute CONSISTE ESTA GUIacuteA 2
PLANTILLA 1 ndash EL CAMINO A SEGUIR 5
ETAPA 1 ndash EL PROBLEMA 6
ETAPA 2 ndash LA RECOLECCIOacuteN 6
ETAPA 3 ndash LA LIMPIEZA 6
ETAPA 4 ndash LA EXPLORACIOacuteN 7
ETAPA 5 ndash EL ANAacuteLISIS 7
ETAPA 6 ndash LA CONCLUSIOacuteN 7
PLANTILLA 2 ndash LA MATERIA PRIMA 8
LOS ELEMENTOS DE UNA TABLA DE DATOS 9
LA CLASIFICACIOacuteN DE LAS VARIABLES 10
Variables numeacutericas de escala 10
Variables categoacutericas 10
Variables Ordinales 10
PLANTILLA 3 ndash LA EXPLORACIOacuteN 11
GRAacuteFICOS Y CARACTERIacuteSTICAS 12
LA DISTRIBUCIOacuteN 12
LAS RELACIONES ENTRE VARIABLES 13
LAS TABLAS DE CONTINGENCIA 13
LA GUIacuteA DE LA EXPLORACIOacuteN 14
iquestEN QUEacute CONSISTE LA GUIacuteA DE LA EXPLORACIOacuteN 15
CASO 1 ndash 1 VARIABLE NUMEacuteRICA 16
Resumen numeacuterico 17
Graacuteficos de la distribucioacuten 17
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE CATEGOacuteRICA 19
Boxplot 20
Histograma de densidad 20
CASO 3 ndash 2 O MAacuteS VARIABLES NUMEacuteRICAS 21
Diagrama de dispersioacuten o scatterplot 22
Matrixplot 22
Diagrama de correlacioacuten 22
Diagrama hiacutebrido 22
CASO 4 ndash 2 O MAacuteS VARIABLES NUMEacuteRICAS + 1 CATEGOacuteRICA 24
CASO 5 ndash VARIABLES CATEGOacuteRICAS 26
Tablas de contingencia 27
Balloon plot 27
Diagrama de barras 27
Diagrama de sectores 27
PLANTILLA 4 ndash EL ANAacuteLISIS 28
ESTADIacuteSTICA INFERENCIAL 29
CONTRASTE DE HIPOacuteTESIS 29
La Ficha del Contraste de Hipoacutetesis 31
2 TIPOS DE TEST ESTADIacuteSTICOS 34
EL MAPA MENTAL DEL ANAacuteLISIS 34
LA GUIacuteA DEL ANAacuteLISIS 36
iquestEN QUEacute CONSISTE LA GUIacuteA DEL ANAacuteLISIS 37
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO 39
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO 41
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS PROPORCIONES 42
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA TABLA DE CONTINGENCIAS 44
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES NUMEacuteRICAS 46
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES 48
4
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE PRUEBAS PARAMEacuteTRICAS 50
PLANTILLA 5 ndash EL SOFTWARE 52
iquestQUEacute SOFTWARE UTILIZO 53
iquestCOacuteMO UTILIZO EL SOFTWARE 54
iquestCOacuteMO APLICAR TODO ESTO EN TU BASE DE DATOS 55
5
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
iquestCuaacuteles son las etapas de un proceso completo de Anaacutelisis de Datos
Tener la visioacuten global de un proceso completo de Anaacutelisis de Datos es fundamental Y quiero que lo
veas como una transformacioacuten de informacioacuten
Es decir partes del estado inicial plantear el problema y los objetivos
Y pasas un estado final listas conclusiones basadas en datos reales para poder resolver el
problema planteado en la etapa inicial
6
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Te muestro las 6 etapas de un proceso global de anaacutelisis de datos des del punto de vista de la
transformacioacuten de los datos
Etapa 1 ndash El Problema
Todo nace de un problema de una necesidad real Tu estudio tu proyecto parte de esta premisa
Entender mejor la realidad y solucionar el problema que te preocupa Este es tu objetivo como
Analista de Datos
En esta etapa definiraacutes el foco del estudio
Es decir queacute problema quieres abordar y definiraacutes el objetivo del estudio
Etapa 2 ndash La Recoleccioacuten
Es el disentildeo de un meacutetodo de recoleccioacuten de informacioacuten Maacutes teacutecnicamente es un proceso de
experimentacioacuten
Puede ser una encuesta pruebas en laboratorios con pacientes nutrirse de datos de marketing en
redes sociales etc
En definitiva es un plan de observacioacuten de la realidad para poder obtener DATOS
Etapa 3 ndash La Limpieza
Los DATOS son observaciones de la realidad y es un metal precioso en bruto Es necesario pulirlo
y encontrar lo maacutes apreciado
En esta etapa te encargaraacutes de homogeneizar los datos en cuanto a formato deshacer
observaciones que no te interesan y almacenar las maacutes uacutetiles
7
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Etapa 4 ndash La Exploracioacuten
Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden
entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva
(ED)
Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas
sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y
raacutepida
Etapa 5 ndash El Anaacutelisis
Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como
investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas
estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te
interesan
La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor
aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo
conjunto de la realidad la muestra
En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande
(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de
hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la
prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros
Etapa 6 ndash La Conclusioacuten
Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten
maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes
planteado en la etapa 1
8
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
iquestQueacute es una tabla de datos y coacutemo estaacute ordenada
El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad
tablas o matrices es una verdadera revelacioacuten
Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en
columnas es otra clave
En esta plantilla veraacutes
- Coacutemo es una tabla de datos
- Queacute son las variables y las observaciones
- Queacute tipo de variables son las maacutes comunes en la praacutectica
9
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como
la materia prima
Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como
empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones
cristalinas que resolveraacuten gran parte de tus inquietudes
Los elementos de una tabla de datos
El punto de partida de un buen anaacutelisis
son tus DATOS limpios en forma de
tabla Vale pero iquestqueacute es una base de
datos De hecho ya te lo he definido
Es una tabla con filas y columnas Como
una matriz Y cada celda contiene un
coacutedigo alfanumeacuterico
Las filas son observaciones de
la realidad
Las columnas son variables
Las variables son caracteriacutesticas
Pueden ser longitud temperatura
densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de
enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar
es una variable
Las observaciones son las distintas mediciones de las variables Pueden ser personas
animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final
para resumirlo observaciones de la realidad
Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten
tendraacutes
En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se
simbolizan con la letra n pequentildea
10
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
La clasificacioacuten de las variables
Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales
Variables numeacutericas de escala
Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)
edad (antildeos) etc
A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad
B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros
Variables categoacutericas
Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador
nombre del instituto
A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y
bajo grande pequentildeo etc
B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades
carrera estudiada
Variables Ordinales
Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo
regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave
muy grave
11
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
iquestCoacutemo puedo interpretar los datos
El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis
Y para miacute la exploracioacuten tiene un sentido muy muy importante
En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo
visual como graacuteficos o en caracteriacutesticas sencillas de entender
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
4
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE PRUEBAS PARAMEacuteTRICAS 50
PLANTILLA 5 ndash EL SOFTWARE 52
iquestQUEacute SOFTWARE UTILIZO 53
iquestCOacuteMO UTILIZO EL SOFTWARE 54
iquestCOacuteMO APLICAR TODO ESTO EN TU BASE DE DATOS 55
5
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
iquestCuaacuteles son las etapas de un proceso completo de Anaacutelisis de Datos
Tener la visioacuten global de un proceso completo de Anaacutelisis de Datos es fundamental Y quiero que lo
veas como una transformacioacuten de informacioacuten
Es decir partes del estado inicial plantear el problema y los objetivos
Y pasas un estado final listas conclusiones basadas en datos reales para poder resolver el
problema planteado en la etapa inicial
6
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Te muestro las 6 etapas de un proceso global de anaacutelisis de datos des del punto de vista de la
transformacioacuten de los datos
Etapa 1 ndash El Problema
Todo nace de un problema de una necesidad real Tu estudio tu proyecto parte de esta premisa
Entender mejor la realidad y solucionar el problema que te preocupa Este es tu objetivo como
Analista de Datos
En esta etapa definiraacutes el foco del estudio
Es decir queacute problema quieres abordar y definiraacutes el objetivo del estudio
Etapa 2 ndash La Recoleccioacuten
Es el disentildeo de un meacutetodo de recoleccioacuten de informacioacuten Maacutes teacutecnicamente es un proceso de
experimentacioacuten
Puede ser una encuesta pruebas en laboratorios con pacientes nutrirse de datos de marketing en
redes sociales etc
En definitiva es un plan de observacioacuten de la realidad para poder obtener DATOS
Etapa 3 ndash La Limpieza
Los DATOS son observaciones de la realidad y es un metal precioso en bruto Es necesario pulirlo
y encontrar lo maacutes apreciado
En esta etapa te encargaraacutes de homogeneizar los datos en cuanto a formato deshacer
observaciones que no te interesan y almacenar las maacutes uacutetiles
7
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Etapa 4 ndash La Exploracioacuten
Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden
entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva
(ED)
Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas
sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y
raacutepida
Etapa 5 ndash El Anaacutelisis
Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como
investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas
estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te
interesan
La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor
aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo
conjunto de la realidad la muestra
En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande
(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de
hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la
prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros
Etapa 6 ndash La Conclusioacuten
Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten
maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes
planteado en la etapa 1
8
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
iquestQueacute es una tabla de datos y coacutemo estaacute ordenada
El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad
tablas o matrices es una verdadera revelacioacuten
Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en
columnas es otra clave
En esta plantilla veraacutes
- Coacutemo es una tabla de datos
- Queacute son las variables y las observaciones
- Queacute tipo de variables son las maacutes comunes en la praacutectica
9
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como
la materia prima
Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como
empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones
cristalinas que resolveraacuten gran parte de tus inquietudes
Los elementos de una tabla de datos
El punto de partida de un buen anaacutelisis
son tus DATOS limpios en forma de
tabla Vale pero iquestqueacute es una base de
datos De hecho ya te lo he definido
Es una tabla con filas y columnas Como
una matriz Y cada celda contiene un
coacutedigo alfanumeacuterico
Las filas son observaciones de
la realidad
Las columnas son variables
Las variables son caracteriacutesticas
Pueden ser longitud temperatura
densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de
enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar
es una variable
Las observaciones son las distintas mediciones de las variables Pueden ser personas
animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final
para resumirlo observaciones de la realidad
Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten
tendraacutes
En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se
simbolizan con la letra n pequentildea
10
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
La clasificacioacuten de las variables
Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales
Variables numeacutericas de escala
Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)
edad (antildeos) etc
A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad
B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros
Variables categoacutericas
Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador
nombre del instituto
A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y
bajo grande pequentildeo etc
B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades
carrera estudiada
Variables Ordinales
Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo
regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave
muy grave
11
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
iquestCoacutemo puedo interpretar los datos
El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis
Y para miacute la exploracioacuten tiene un sentido muy muy importante
En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo
visual como graacuteficos o en caracteriacutesticas sencillas de entender
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
5
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
iquestCuaacuteles son las etapas de un proceso completo de Anaacutelisis de Datos
Tener la visioacuten global de un proceso completo de Anaacutelisis de Datos es fundamental Y quiero que lo
veas como una transformacioacuten de informacioacuten
Es decir partes del estado inicial plantear el problema y los objetivos
Y pasas un estado final listas conclusiones basadas en datos reales para poder resolver el
problema planteado en la etapa inicial
6
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Te muestro las 6 etapas de un proceso global de anaacutelisis de datos des del punto de vista de la
transformacioacuten de los datos
Etapa 1 ndash El Problema
Todo nace de un problema de una necesidad real Tu estudio tu proyecto parte de esta premisa
Entender mejor la realidad y solucionar el problema que te preocupa Este es tu objetivo como
Analista de Datos
En esta etapa definiraacutes el foco del estudio
Es decir queacute problema quieres abordar y definiraacutes el objetivo del estudio
Etapa 2 ndash La Recoleccioacuten
Es el disentildeo de un meacutetodo de recoleccioacuten de informacioacuten Maacutes teacutecnicamente es un proceso de
experimentacioacuten
Puede ser una encuesta pruebas en laboratorios con pacientes nutrirse de datos de marketing en
redes sociales etc
En definitiva es un plan de observacioacuten de la realidad para poder obtener DATOS
Etapa 3 ndash La Limpieza
Los DATOS son observaciones de la realidad y es un metal precioso en bruto Es necesario pulirlo
y encontrar lo maacutes apreciado
En esta etapa te encargaraacutes de homogeneizar los datos en cuanto a formato deshacer
observaciones que no te interesan y almacenar las maacutes uacutetiles
7
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Etapa 4 ndash La Exploracioacuten
Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden
entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva
(ED)
Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas
sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y
raacutepida
Etapa 5 ndash El Anaacutelisis
Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como
investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas
estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te
interesan
La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor
aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo
conjunto de la realidad la muestra
En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande
(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de
hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la
prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros
Etapa 6 ndash La Conclusioacuten
Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten
maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes
planteado en la etapa 1
8
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
iquestQueacute es una tabla de datos y coacutemo estaacute ordenada
El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad
tablas o matrices es una verdadera revelacioacuten
Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en
columnas es otra clave
En esta plantilla veraacutes
- Coacutemo es una tabla de datos
- Queacute son las variables y las observaciones
- Queacute tipo de variables son las maacutes comunes en la praacutectica
9
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como
la materia prima
Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como
empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones
cristalinas que resolveraacuten gran parte de tus inquietudes
Los elementos de una tabla de datos
El punto de partida de un buen anaacutelisis
son tus DATOS limpios en forma de
tabla Vale pero iquestqueacute es una base de
datos De hecho ya te lo he definido
Es una tabla con filas y columnas Como
una matriz Y cada celda contiene un
coacutedigo alfanumeacuterico
Las filas son observaciones de
la realidad
Las columnas son variables
Las variables son caracteriacutesticas
Pueden ser longitud temperatura
densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de
enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar
es una variable
Las observaciones son las distintas mediciones de las variables Pueden ser personas
animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final
para resumirlo observaciones de la realidad
Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten
tendraacutes
En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se
simbolizan con la letra n pequentildea
10
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
La clasificacioacuten de las variables
Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales
Variables numeacutericas de escala
Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)
edad (antildeos) etc
A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad
B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros
Variables categoacutericas
Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador
nombre del instituto
A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y
bajo grande pequentildeo etc
B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades
carrera estudiada
Variables Ordinales
Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo
regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave
muy grave
11
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
iquestCoacutemo puedo interpretar los datos
El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis
Y para miacute la exploracioacuten tiene un sentido muy muy importante
En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo
visual como graacuteficos o en caracteriacutesticas sencillas de entender
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
6
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Te muestro las 6 etapas de un proceso global de anaacutelisis de datos des del punto de vista de la
transformacioacuten de los datos
Etapa 1 ndash El Problema
Todo nace de un problema de una necesidad real Tu estudio tu proyecto parte de esta premisa
Entender mejor la realidad y solucionar el problema que te preocupa Este es tu objetivo como
Analista de Datos
En esta etapa definiraacutes el foco del estudio
Es decir queacute problema quieres abordar y definiraacutes el objetivo del estudio
Etapa 2 ndash La Recoleccioacuten
Es el disentildeo de un meacutetodo de recoleccioacuten de informacioacuten Maacutes teacutecnicamente es un proceso de
experimentacioacuten
Puede ser una encuesta pruebas en laboratorios con pacientes nutrirse de datos de marketing en
redes sociales etc
En definitiva es un plan de observacioacuten de la realidad para poder obtener DATOS
Etapa 3 ndash La Limpieza
Los DATOS son observaciones de la realidad y es un metal precioso en bruto Es necesario pulirlo
y encontrar lo maacutes apreciado
En esta etapa te encargaraacutes de homogeneizar los datos en cuanto a formato deshacer
observaciones que no te interesan y almacenar las maacutes uacutetiles
7
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Etapa 4 ndash La Exploracioacuten
Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden
entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva
(ED)
Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas
sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y
raacutepida
Etapa 5 ndash El Anaacutelisis
Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como
investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas
estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te
interesan
La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor
aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo
conjunto de la realidad la muestra
En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande
(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de
hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la
prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros
Etapa 6 ndash La Conclusioacuten
Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten
maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes
planteado en la etapa 1
8
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
iquestQueacute es una tabla de datos y coacutemo estaacute ordenada
El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad
tablas o matrices es una verdadera revelacioacuten
Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en
columnas es otra clave
En esta plantilla veraacutes
- Coacutemo es una tabla de datos
- Queacute son las variables y las observaciones
- Queacute tipo de variables son las maacutes comunes en la praacutectica
9
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como
la materia prima
Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como
empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones
cristalinas que resolveraacuten gran parte de tus inquietudes
Los elementos de una tabla de datos
El punto de partida de un buen anaacutelisis
son tus DATOS limpios en forma de
tabla Vale pero iquestqueacute es una base de
datos De hecho ya te lo he definido
Es una tabla con filas y columnas Como
una matriz Y cada celda contiene un
coacutedigo alfanumeacuterico
Las filas son observaciones de
la realidad
Las columnas son variables
Las variables son caracteriacutesticas
Pueden ser longitud temperatura
densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de
enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar
es una variable
Las observaciones son las distintas mediciones de las variables Pueden ser personas
animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final
para resumirlo observaciones de la realidad
Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten
tendraacutes
En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se
simbolizan con la letra n pequentildea
10
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
La clasificacioacuten de las variables
Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales
Variables numeacutericas de escala
Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)
edad (antildeos) etc
A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad
B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros
Variables categoacutericas
Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador
nombre del instituto
A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y
bajo grande pequentildeo etc
B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades
carrera estudiada
Variables Ordinales
Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo
regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave
muy grave
11
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
iquestCoacutemo puedo interpretar los datos
El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis
Y para miacute la exploracioacuten tiene un sentido muy muy importante
En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo
visual como graacuteficos o en caracteriacutesticas sencillas de entender
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
7
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 1 ndash EL CAMINO A SEGUIR
Etapa 4 ndash La Exploracioacuten
Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden
entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva
(ED)
Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas
sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y
raacutepida
Etapa 5 ndash El Anaacutelisis
Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como
investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas
estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te
interesan
La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor
aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo
conjunto de la realidad la muestra
En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande
(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de
hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la
prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros
Etapa 6 ndash La Conclusioacuten
Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten
maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes
planteado en la etapa 1
8
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
iquestQueacute es una tabla de datos y coacutemo estaacute ordenada
El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad
tablas o matrices es una verdadera revelacioacuten
Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en
columnas es otra clave
En esta plantilla veraacutes
- Coacutemo es una tabla de datos
- Queacute son las variables y las observaciones
- Queacute tipo de variables son las maacutes comunes en la praacutectica
9
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como
la materia prima
Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como
empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones
cristalinas que resolveraacuten gran parte de tus inquietudes
Los elementos de una tabla de datos
El punto de partida de un buen anaacutelisis
son tus DATOS limpios en forma de
tabla Vale pero iquestqueacute es una base de
datos De hecho ya te lo he definido
Es una tabla con filas y columnas Como
una matriz Y cada celda contiene un
coacutedigo alfanumeacuterico
Las filas son observaciones de
la realidad
Las columnas son variables
Las variables son caracteriacutesticas
Pueden ser longitud temperatura
densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de
enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar
es una variable
Las observaciones son las distintas mediciones de las variables Pueden ser personas
animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final
para resumirlo observaciones de la realidad
Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten
tendraacutes
En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se
simbolizan con la letra n pequentildea
10
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
La clasificacioacuten de las variables
Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales
Variables numeacutericas de escala
Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)
edad (antildeos) etc
A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad
B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros
Variables categoacutericas
Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador
nombre del instituto
A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y
bajo grande pequentildeo etc
B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades
carrera estudiada
Variables Ordinales
Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo
regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave
muy grave
11
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
iquestCoacutemo puedo interpretar los datos
El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis
Y para miacute la exploracioacuten tiene un sentido muy muy importante
En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo
visual como graacuteficos o en caracteriacutesticas sencillas de entender
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
8
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
iquestQueacute es una tabla de datos y coacutemo estaacute ordenada
El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad
tablas o matrices es una verdadera revelacioacuten
Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en
columnas es otra clave
En esta plantilla veraacutes
- Coacutemo es una tabla de datos
- Queacute son las variables y las observaciones
- Queacute tipo de variables son las maacutes comunes en la praacutectica
9
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como
la materia prima
Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como
empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones
cristalinas que resolveraacuten gran parte de tus inquietudes
Los elementos de una tabla de datos
El punto de partida de un buen anaacutelisis
son tus DATOS limpios en forma de
tabla Vale pero iquestqueacute es una base de
datos De hecho ya te lo he definido
Es una tabla con filas y columnas Como
una matriz Y cada celda contiene un
coacutedigo alfanumeacuterico
Las filas son observaciones de
la realidad
Las columnas son variables
Las variables son caracteriacutesticas
Pueden ser longitud temperatura
densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de
enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar
es una variable
Las observaciones son las distintas mediciones de las variables Pueden ser personas
animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final
para resumirlo observaciones de la realidad
Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten
tendraacutes
En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se
simbolizan con la letra n pequentildea
10
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
La clasificacioacuten de las variables
Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales
Variables numeacutericas de escala
Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)
edad (antildeos) etc
A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad
B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros
Variables categoacutericas
Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador
nombre del instituto
A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y
bajo grande pequentildeo etc
B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades
carrera estudiada
Variables Ordinales
Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo
regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave
muy grave
11
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
iquestCoacutemo puedo interpretar los datos
El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis
Y para miacute la exploracioacuten tiene un sentido muy muy importante
En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo
visual como graacuteficos o en caracteriacutesticas sencillas de entender
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
9
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como
la materia prima
Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como
empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones
cristalinas que resolveraacuten gran parte de tus inquietudes
Los elementos de una tabla de datos
El punto de partida de un buen anaacutelisis
son tus DATOS limpios en forma de
tabla Vale pero iquestqueacute es una base de
datos De hecho ya te lo he definido
Es una tabla con filas y columnas Como
una matriz Y cada celda contiene un
coacutedigo alfanumeacuterico
Las filas son observaciones de
la realidad
Las columnas son variables
Las variables son caracteriacutesticas
Pueden ser longitud temperatura
densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de
enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar
es una variable
Las observaciones son las distintas mediciones de las variables Pueden ser personas
animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final
para resumirlo observaciones de la realidad
Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten
tendraacutes
En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se
simbolizan con la letra n pequentildea
10
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
La clasificacioacuten de las variables
Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales
Variables numeacutericas de escala
Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)
edad (antildeos) etc
A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad
B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros
Variables categoacutericas
Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador
nombre del instituto
A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y
bajo grande pequentildeo etc
B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades
carrera estudiada
Variables Ordinales
Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo
regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave
muy grave
11
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
iquestCoacutemo puedo interpretar los datos
El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis
Y para miacute la exploracioacuten tiene un sentido muy muy importante
En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo
visual como graacuteficos o en caracteriacutesticas sencillas de entender
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
10
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 2 ndash LA MATERIA PRIMA
La clasificacioacuten de las variables
Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales
Variables numeacutericas de escala
Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)
edad (antildeos) etc
A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad
B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros
Variables categoacutericas
Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador
nombre del instituto
A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y
bajo grande pequentildeo etc
B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades
carrera estudiada
Variables Ordinales
Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo
regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave
muy grave
11
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
iquestCoacutemo puedo interpretar los datos
El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis
Y para miacute la exploracioacuten tiene un sentido muy muy importante
En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo
visual como graacuteficos o en caracteriacutesticas sencillas de entender
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
11
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
iquestCoacutemo puedo interpretar los datos
El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis
Y para miacute la exploracioacuten tiene un sentido muy muy importante
En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo
visual como graacuteficos o en caracteriacutesticas sencillas de entender
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
12
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es
interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y
hablar el mismo idioma
Graacuteficos y caracteriacutesticas
El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas
numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google
translator Las herramientas de ED te ayudan a transformar tu tabla de datos en
Graacuteficos para poder visualizar filas y filas de tu tabla de datos
Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias
Tablas de frecuencias para contar las observaciones de cada grupo o intervalo
La distribucioacuten
Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en
forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena
una variable numeacuterica
Las dos caracteriacutesticas de una
distribucioacuten son
La Centralidad es el valor maacutes
ceacutentrico o doacutende se concentran
los valores La media y la
mediana miden esta
caracteriacutestica
La dispersioacuten es el ancho de
una distribucioacuten La desviacioacuten
estaacutendar y la varianza
cuantifican la dispersioacuten
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
13
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 3 ndash LA EXPLORACIOacuteN
Las relaciones entre variables
Relacionar variables numeacutericas es una buena praxis El
objetivo es ver a simple vista si dos variables numeacutericas se
pueden relacionar entre siacute
Se utiliza el famoso scatterplot o diagrama de dispersioacuten
Son los valores de 2 variables en el plano 2D en forma de
puntos Para ver posibles relaciones entre ellas
Las tablas de contingencia
El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de
variables categoacutericas utilizaraacutes la tabla de contingencias
Es una tabla resumen
Contaraacutes las observaciones de
cada grupo La frecuencia es el
nuacutemero de observaciones de
cada caso
Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)
Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2
Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde
te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos
Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas
graacuteficas maacutes interesantes iexclLetrsquos go
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
14
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DE LA EXPLORACIOacuteN
La herramientas graacuteficas indispensables explicadas
caso por caso
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
15
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea de la Exploracioacuten
Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la
informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras
En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y
hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz
Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder
resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar
Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos
- Cuando quieres explorar una uacutenica variable numeacuterica
- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica
- Cuando quieres explorar 2 o maacutes variable numeacutericas
- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica
- Cuando quieres explorar variables categoacutericas
Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro
Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas
entender queacute significan
iquestEmpezamos
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
16
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
iquestCoacutemo es la distribucioacuten de mi variable numeacuterica
Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las
edades de estos trabajadores
Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute
envejecida o no
En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
17
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de
los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir
Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad
boxplot + stripcharthellip
Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o
raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10
cm iexclSe va de madre Es una altura rara o anoacutemala
Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un
poco maacutes
Resumen numeacuterico
Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las
principales son
o Valor central media y mediana
o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)
o Intervalo de confianza para la media
o Rangos valor maacuteximo y miacutenimo cuartiles
Graacuteficos de la distribucioacuten
Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son
o Histograma e histograma de densidad visualiza la forma de la distribucioacuten
o Boxplot visualiza los rangos y los valores anoacutemalos
o qq-plot visualiza si la distribucioacuten es normal o no
o Stripchart con el boxplot puntos + boxplot
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
18
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 1 ndash 1 VARIABLE NUMEacuteRICA
Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta
te quedaraacute maacutes grabado los graacuteficos que estoy nombrando
Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el
sonido del viacutedeo Fue una de los primeros que grabeacute jejeje
BOXPLOT +
HISTOGRAMA
HISTOGRAMA
DENSIDAD QQPLOT BOXPLOT +
STRIPCHART HISTOGRAM
A
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
19
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
iquestQueacute diferencias observas entre grupos de tu variable numeacuterica
Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos
que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la
segunda mitad del antildeo (de Julio a Diciembre)
Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del
antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
20
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE
CATEGOacuteRICA
En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una
variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los
habitantes es diferente o no en funcioacuten de los paiacuteses
El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de
dos graacuteficos
Boxplot y stripchart por grupos
Histograma de densidad por grupos
Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que
indique el grupo puede ser interesante en estos casos
Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que
estaacuten al lado del boxplot
HISTOGRAMA DE
DENSIDAD POR
GRUPOS
BOXPLOT +
STRIPCHART POR
GRUPOS
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
21
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
iquestQueacute relacioacuten tienen las variables entre siacute
Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del
coche estaacute relacionado con el consumo de combustible
Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o
si no tienen nada que ver
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
22
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo
que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo
El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa
Esta herramienta se utiliza con 2 variables numeacutericas
Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas
mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten
Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de
relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar
en forma de matriz los valores de la correlacioacuten por parejas de variables
Diagrama de dispersioacuten o scatterplot
Matrixplot
Diagrama de correlacioacuten
Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten
Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
23
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS
A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero
con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo
Matrixplot de los histogramas de todas las variables una a una
Matrixplot de los histogramas de densidad de todas las variables una a una
HISTOGRAMAS
INDIVIDUALES
HISTOGRAMAS DE
DENSIDAD
INDIVIDUALES
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
24
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos
Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los
seacutepalos de flores de 3 especies de plantas
Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores
y la influencia que puedan tener en cuanto al tipo de especies
Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el
otro el tipo de especie (variable categoacuterica)
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
25
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1
CATEGOacuteRICA
Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las
dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de
plantas
En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te
ayudaraacuten a diferenciar los grupos
Diagrama de dispersioacuten por colores
Matrixplot por colores
Histograma por colores
HISTOGRAMAS POR
GRUPOS
MATRIXPLOT POR
GRUPOS
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
26
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables
categoacutericas
Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes
tendencia a tener caacutencer de pulmoacuten o no
En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los
fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si
los pacientes tienen caacutencer de pulmoacuten o no
En total dos variables categoacutericas con dos grupos cada una
iquestCoacutemo puedes explorar esta informacioacuten
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
27
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
CASO 5 ndash VARIABLES CATEGOacuteRICAS
Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las
variables categoacutericas en forma de frecuencias con la tabla de contingencias
Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc
Estos son las herramientas maacutes interesantes
Tablas de contingencia
Balloon plot (representacioacuten graacutefica de la tabla de contingencias)
Diagrama de barras
Diagrama de sectores
Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas
graacuteficas para que entiendas lo que estoy diciendo
DIAGRAMA DE
PASTEL
DIAGRAMA DE
BARRAS
BALLOON PLOT
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
28
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
iquestQueacute teacutecnica estadiacutestica aplico en cada caso
Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el
anaacutelisis
Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones
con evidencias estadiacutesticas
Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos
Que es de lo que se trata al final
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
29
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute
teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico
utilizar en cada caso
Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes
praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1
Estadiacutestica Inferencial
iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En
obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta
poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos
obtenidos de una muestra
La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques
dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra
Contraste de hipoacutetesis
Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis
(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes
en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis
Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
30
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
El nuacutecleo del Anaacutelisis
La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test
estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender
al principio
Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir
al grano
El contraste con fiebre
Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro
que te ha pasado alguna vez
Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado
Tiene toda la pinta de fiebre iquestverdad
Sofaacute un teacute calentito y a descansar
Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto
Te pones el termoacutemetro y iexclTachaacuten
Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)
Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol
Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro
cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten
cientiacutefica
De hecho es una pequentildea investigacioacuten en miniatura
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
31
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Hipoacutetesis de investigacioacuten H1
H1 ndash TENGO FIEBRE (estado que buscamos como investigador)
Hipoacutetesis Nula H0
H0 ndash NO TENGO FIEBRE (estado normal)
En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece
que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar
comprobarla con un test medir la temperatura con el termoacutemetro
La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes
buscando ldquotengo fiebrerdquo
La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo
fiebrerdquo
Ya tienes lo maacutes complicado en tu mente
Un test estadiacutestico
El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten
iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador
Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a
decidir si tu hipoacutetesis de investigacioacuten es cierta o no
iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
32
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
La incertidumbre y el p-valor
El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este
p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de
investigacioacuten Me explico
Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido
aceptarla
Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso
para considerar que la H1 es cierta Y la vas a aceptar
El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es
cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)
La Receta para no Fallar Nunca
Para responder a tu pregunta de investigacioacuten sigue esta receta
p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)
p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu
hipoacutetesis de investigacioacuten (Tengo fiebre)
p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor
no mojarse
Para reforzar un poquito esta receta (con otras palabras)
p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla
p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0
p-valor cercano a 005 No te mojes demasiado
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
33
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
La Ficha del Contraste de Hipoacutetesis
Un ejemplo para acabar
Mejor acabar con un ejemplo muy simple
Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la
longitud del peacutetalo de las flores es diferente
Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de
planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten
H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente
H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo
Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor
Resultado p-valor = 000345
iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla
medida de azar
iexclEntonces mi H1 es cierta
Este es el proceso
1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos
especies de plantas
2 Defines las hipoacutetesis
a H1 las dos especies tienen la longitud del peacutetalo diferente
b H0 las dos especies NO tienen la longitud del peacutetalo diferente
3 Escoges el test estadiacutestico t-test
4 Calculas el p-valor 00035
5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de
significacioacuten del 035
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
34
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 4 ndash EL ANAacuteLISIS
2 Tipos de test estadiacutesticos
En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la
praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas
O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza
siempre que puedas pruebas parameacutetricas
Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten
normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como
comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de
varianzas (a veces hay maacutes)
Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de
distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que
las parameacutetricas pero te pueden servir en muchas ocasiones
El Mapa Mental del Anaacutelisis
Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te
he puesto el tipo de problema y un pequentildeo ejemplo de cada uno
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por
ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga
no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin
agobios
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
35
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes
descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo
Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica
En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6
porblemas tipo de la estadiacutestica aplicada
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
36
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
LA GUIacuteA DEL ANAacuteLISIS
La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos
maacutes comunes en la praacutectica
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
37
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestEn queacute consiste la Guiacutea del Anaacutelisis
Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis
Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu
proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva
Es momento de dar paso al anaacutelisis
La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes
generales
Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y
vas a querer obtener inferir conclusiones generales a partir de esta muestra
La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes
comunes es el famoso contraste de hipoacutetesis
El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con
teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas
Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la
praacutectica
Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy
estaacutes viendo la estadiacutestica aplicada
Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes
comunes que se utilizan en la praacutectica
No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar
Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar
Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo
iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero
1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo
2 Distinguir si las proporciones son diferentes de un grupo al otro
3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-
cuadradordquo
4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
38
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras
Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo
6 Comprobar las restricciones de normalidad e igualdad de varianzas
iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute
significa con un ejemplo
iquestLe damos cantildea
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
39
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con
respecto a los grupos de mi variable categoacuterica
Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un
ejemplo muy faacutecil
Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50
mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi
Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el
sueldo anual
En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo
anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera
podraacutes decidir si un grupo es maacutes grande que el otro o viceversa
O por el contrario son iguales y no hay diferencias
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
40
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso
Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de
pacientes con obesidad y los que no
Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul
Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o
no de las otras
Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes
PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)
iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la
distribucioacuten de sueldos con el valor de 1500euro
Si la distribucioacuten es normal T-test con un valor (parameacutetrica)
Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)
PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE
(univariante con 2 grupos)
Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como
podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables
dependientes
Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador
Si son normales por grupos
Varianzas Iguales T-test
Varianzas diferentes T-test correccioacuten Welch
Si NO son normales por grupos Wilcoxon
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
41
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO
PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante
con 2 grupos)
Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y
despueacutes es una variable dependiente
Si son normales por grupos T-test para grupos dependientes
Varianzas diferentes Wilcoxon para grupos dependientes
PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)
iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las
piezas La categoacuterica es el nombre de la maacutequina
Son distribuciones normales por cada grupo y variable
Igualdad de Varianzas ANOVA
NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)
Alguna NO es normal Kruskall Wallis
PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)
iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento
Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con
este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de
tratamiento (variable categoacuterica)
Normalidad e igualdad de varianzas MANOVA
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
42
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
iquestCoacutemo de diferentes son las proporciones de mis grupos de variables
categoacutericas
Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo
problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas
solamente
Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el
porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de
fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer
Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos
proporciones tienen o no diferencias
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
43
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS
PROPORCIONES
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es
calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con
porcentajes (propociones) en lugar de distribuciones
Te muestro los casos maacutes relevantes y los test que se utilizan
PR 21 ndash 1 proporcioacuten con un valor conocido
iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el
porcentaje de desahuciados y el valor es el 5
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
PR 22 ndash 2 proporciones (tablas 2x2)
iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos
categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Si el 80 de las celdas gt5 Z test
En caso contrario test exacto de Fisher
PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)
iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-
35 Tenemos 4 proporciones que queremos comparar
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
El test es el Z test
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
44
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
iquestQueacute dependencia tienen los grupos entre variables categoacutericas
Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El
objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas
Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas
en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable
categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa
con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar
vacaciones
El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea
de casa iquestSe entiende
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
45
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA
TABLA DE CONTINGENCIAS
Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los
test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso
El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el
test correspondiente Estos son los casos que te encontraraacutes en la praacutectica
PR 31 ndash Dependencia de una tabla de contingencias independiente
iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 Categoacutericas dicotoacutemicas (tabla 4x4)
Con el 80 de las celdas con 5 o maacutes Chi Cuadrado
Caso contrario Chi Cuadrado con Correccioacuten de Yates
Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates
PR 32 ndash Dependencia de 2 grupos dependientes
iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha
mejorado
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
Test de McNemar
PR 23 ndash Dependencia de mediciones de un experimento
iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y
uno oacuteptico
Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel
2 variable categoacutericas test Kappa de Cohen
3 o + variables categoacutericas test Kappa de Fleiss
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
46
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas
Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban
como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de
correlacioacuten
Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de
variables categoacutericas
En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo
Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que
cuaacutento maacutes tienes maacutes gastas
Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias
con las peacuterdidas
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
47
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES
NUMEacuteRICAS
Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y
decidir queacute variables estaacuten relacionadas linealmente
El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el
coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo
La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten
y el matrixplot son herramientas muy muy uacutetiles
PR 41 ndash 2 variables numeacutericas
iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de
datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y
el peso del modelo
Correlacioacuten Simple
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
PR 42 ndash 3 o + variables numeacutericas
iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o
ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas
tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada
Correlacioacuten Muacuteltiple
Estadiacutestica descriptiva matrixplot plot de correlacioacuten
Coeficiente Parameacutetrico de Pearson
Coeficiente NO Parameacutetrico de Kendall o Spearman
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
48
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la
otra
Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la
otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a
lo mejor te ayuda
Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca
maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso
Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia
maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
49
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA
VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES
Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo
de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar
Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como
imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten
lineal Y es un mundo muy muy grande
Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son
de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor
PR 51 ndash 2 variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes
dos variables numeacutericas La variable que predices es la y (el consumo del coche) en
funcioacuten de la variable x (el peso del mismo)
Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten
Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b
PR 52 ndash 3 o + variables numeacutericas
iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b
PR 53 ndash Variables numeacutericas + categoacutericas
iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial
maacutexima y miacutenima la edad y el geacutenero
Estadiacutestica descriptiva Matrixplot plot de correlacioacuten
El modelo es la Regresioacuten Logiacutestica
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
50
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas
entre grupos son iguales
Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de
restricciones Normalmente son dos
Si las distribuciones numeacutericas son normales
Si las varianzas entre grupos son iguales
Para el PR 1 son esenciales estas restricciones
iexclAhora te cuento un poco maacutes
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
51
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE
PRUEBAS PARAMEacuteTRICAS
Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para
utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones
PR 61 ndash Normalidad de una distribucioacuten
Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a
ayudar
Descriptiva graacutefica histograma boxplot qqplot
Prueba Shapiro Wilk
PR 62 ndash Varianzas iguales entre grupos
Se trata de ver si la dispersioacuten es la misma para distintas distribuciones
2 grupos test F
3 o + grupos
o Si Distribuciones Normales Levene
o Alguna NO Normal Barlette
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
52
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
iquestQueacute software utilizo y coacutemo aprendo a manejarlo
Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy
importante Pero la ejecucioacuten lo es mucho maacutes
Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
53
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas
estas ensentildeanzas necesitas un PC y un software
Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como
profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos
1 iquestQueacute software utilizo
2 iquestCoacutemo utilizo el software
iquestQueacute software utilizo
Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro
modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos
CAMINO 1 ndash El Investigador Cientiacutefico
No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como
investigador sin complicarme la vida
R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin
necesidad de programar Pero puede utilizar funcionalidades de R completas Porque
tambieacuten te permite antildeadir sentencias de coacutedigo
SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis
estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que
pagar para usarlo
CAMINO 2 ndash El Analista de Datos
Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer
como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con
mayor capacidad teacutecnica
R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que
necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan
coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de
este software
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
54
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
PLANTILLA 5 ndash EL SOFTWARE
Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes
de licencias comerciales
Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes
Para que me entiendas un poquito maacutes
R es el motor de caacutelculo
RStudio y RCommander son interfaces de usuario del motor de caacutelculo R
Puedes utilizar la que quieras o combinarlas si lo prefieres
RStudio necesita que tu entres los comandos a mano
RCommander funciona a base de clicks
Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio
Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas
te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina
iquestCoacutemo utilizo el software
Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para
que vayas paso a paso y te explico lo esencial para empezar con eacutexito
So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento
DESCARGA LA GUIacuteA PARA
EMPEZAR CON R SIN MORIR EN EL
INTENTO
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
55
BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS
LA GUIacuteA PARA NO PERDERTE NUNCA
iquestY AHORA QUEacute
iquestCoacutemo aplicar todo esto en tu base de datos
Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar
lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes
esencial como utilizarla en la praacutectica con el software de aplicacioacuten
Espera un poquito y llegareacute con la solucioacuten que andas buscando
iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA
Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita
Jordi
PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom
Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes
Ayudo a investigadores y profesionales teacutecnicos a
aprender herramientas de anaacutelisis de datos para
mejorar sus capacidades teacutecnicas y sentirse
mejores y maacutes valorados
Top Related