Text Mining v1.3

19
TEXT MINING Estudio sobre vacante “Minería de Datos”

Transcript of Text Mining v1.3

Page 1: Text Mining v1.3

TEXT MINING

Estudio sobre vacante

“Minería de Datos”

Page 2: Text Mining v1.3

Jorge A. Romero Ortiz

Objetivo (De la Presentación)

• Mostrar bondades de análisis con Minería de Texto (TEXT MINING)

2

Page 3: Text Mining v1.3

Jorge A. Romero Ortiz

Objetivo (Del Estudio)

• Extraer conocimiento útil en texto que describe vacantes sobre “Minería de Datos” publicadas por empresas

• Determinar perfil del candidato en términos de habilidades, conocimientos, etc., de acuerdo a las necesidades del mercado

3

Page 4: Text Mining v1.3

Jorge A. Romero Ortiz

Método

• Obtener, Modelar y Analizar TEXTO que describe vacantes sobre “Minería de Datos”

– Limpiar datos

– Aplicar Algoritmos de Minería de Texto

– Visualizar resultados

• Determinar perfiles según resultados obtenidos

4

Page 5: Text Mining v1.3

Jorge A. Romero Ortiz

Análisis

• Colección de datos: desde septiembre 2010 hasta abril 2011

• Los registros contienen texto tóxico (no normalizado, no deseado, etc.)

• Variables consideradas

– Empresa, Vacante, Salario Mínimo, Salario Máximo, Lugar, Tipo de Contratación, Fecha, Origen del Registro y, Texto Buscado

5

Page 6: Text Mining v1.3

Jorge A. Romero Ortiz

Análisis

• Elección de las variables de estudio

– Descripción de la Vacante

– Salario

• Limpieza de datos

– Eliminación de todo signo de puntuación

– Sustracción de caracteres no imprimibles

– Normalización de caracteres

– Detección y corrección de datos atípicos

6

Page 7: Text Mining v1.3

Resultados

Aplicación

Modelos y algoritmos

Page 8: Text Mining v1.3

Jorge A. Romero Ortiz

Salario

8

Estadística Salario Mínimo

Mínimo $ 3,000.00

1er cuartil $ 13,000.00

Mediana $ 18,000.00

Promedio $ 20,090.00

3er cuartil $ 22,000.00

Máximo $ 70,000.00

Sin datos 38

Estadística Salario Máximo

Mínimo $ 5,000.00

1er cuartil $ 15,000.00

Mediana $ 22,000.00

Promedio $ 24,100.00

3er cuartil $ 30,000.00

Máximo $ 100,000.00

Sin datos 38

0 10 20 30 40 50 60

10

00

02

00

00

30

00

04

00

00

50

00

06

00

00

Salario Máximo y Mínimo

Vacante Minería de Datos

Index

Sa

lari

o 0 10 20 30 40 50 60

10

00

02

00

00

30

00

04

00

00

50

00

06

00

00

Salario Máximo

Vacante Minería de Datos

Index

Sa

lari

o

0 10 20 30 40 50 60

10

00

02

00

00

30

00

04

00

00

50

00

06

00

00

70

00

0

Salario Mínimo

Vacante Minería de Datos

Index

Sa

lari

o

Page 9: Text Mining v1.3

Jorge A. Romero Ortiz

Salario

9

Máximo Mínimo

10

00

02

00

00

30

00

04

00

00

50

00

06

00

00

Sa

lari

o

0 10 20 30 40 50 60

10

00

02

00

00

30

00

04

00

00

50

00

06

00

00

Salario Máximo

Vacante Minería de Datos

Index

Sa

lari

o

0 10 20 30 40 50 60

10

00

02

00

00

30

00

04

00

00

50

00

0

Salario Mínimo

Vacante Minería de Datos

Index

Sa

lari

o

Salario Máximo

Vacante Minería de Datos

Salario

Fre

cu

en

cia

s

0 10000 20000 30000 40000 50000 60000

05

10

15

20

25

Salario Mínimo

Vacante Minería de Datos

Salario

Fre

cu

en

cia

s0 10000 20000 30000 40000

05

10

15

20

2e+04 4e+04 6e+04 8e+04 1e+05

10

00

02

00

00

30

00

04

00

00

50

00

06

00

00

70

00

0

Salario

Máximo vs Mínimo

Salario Máximo

Sa

lari

o M

ínim

o

Page 10: Text Mining v1.3

Jorge A. Romero Ortiz

Salario Máximo

• Se define

– Salario Promedio entre $11,800 y $34,000

– Salario bajo menor que $11,800

– Salario alto mayor que $34,000

10

Salario Máximo

Vacante Minería de Datos

SalarioF

recu

en

cia

s

0 10000 20000 30000 40000 50000 60000

05

10

15

20

25

Page 11: Text Mining v1.3

Jorge A. Romero Ortiz

Descripción de la Vacante

11

Page 12: Text Mining v1.3

Jorge A. Romero Ortiz

Descripción de la Vacante

12

Page 13: Text Mining v1.3

Jorge A. Romero Ortiz

Descripción de la Vacante

13

Page 14: Text Mining v1.3

Jorge A. Romero Ortiz

Perfiles

• Candidato para– Salario Bajo

• Análisis de datos utilizando Excel, actuarios o informáticos truncos o pasantes para realizar reportes

– Salario Promedio• Análisis de datos y programación con SAS, SQL y ORACLE con

experiencia en modelos estadísticos, generación de reportes (actuarios y matemáticos)

– Salario Alto• Experiencia con conocimiento en Minería de Datos para

prevención de fraudes y cálculo de riesgos, tener habilidades para desarrollar indicadores, actuarios analíticos en inteligencia de negocio

14

Page 15: Text Mining v1.3

Conclusiones

Del Estudio

Perfilamiento

15

Page 16: Text Mining v1.3

Jorge A. Romero Ortiz

Conclusiones

• Se obtuvieron 3 perfiles– Salario– Habilidades

• Se corroboró lo que es básico, entre más experiencia mayor salario

• Lo que contribuye a un mayor salario es experiencia en minería de datos con SAS para el sector financiero

• El promedio del salario está entre 20 y 24 mil pesos

16

Page 17: Text Mining v1.3

Conclusiones

De la presentación

Minería de Texto

17

Page 18: Text Mining v1.3

Jorge A. Romero Ortiz

Conclusiones

• La Minería de Texto enriquece al estudio de texto de documentos del tema de interés

• La gráfica de etiquetas de la Minería de Textotiene Potencial para resumir

• La Minería de Texto muestra una radiografía cercana a la realidad plasmada en documentos

18

Page 19: Text Mining v1.3

Fin

Jorge A. Romero OrtizConsultor Analítico

[email protected]

19