Minería de texto
-
Upload
destiny-britt -
Category
Documents
-
view
73 -
download
2
description
Transcript of Minería de texto
![Page 1: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/1.jpg)
Minería de texto
Análisis Documental
![Page 2: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/2.jpg)
Información
La producción y crecimiento del volumen de información digital, en los últimos años ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cómputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes.
![Page 3: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/3.jpg)
Problema
El crecimiento en la producción de la información digital y los diferentes formatos que se utilizan para su almacenamiento, hacen difícil el acceso a la información, dado que los contenidos no se encuentran indizados y organizados.
![Page 4: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/4.jpg)
Análisis documental
![Page 5: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/5.jpg)
Indización
La indización consiste en dos puntos, el primero es identificar los términos dentro de un documento y segundo en determinar la importancia del término dentro del documento a través de su frecuencia de ocurrencia.
![Page 6: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/6.jpg)
Minería de texto
Es el área más reciente de investigación del procesamiento automático de la información. Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la colección de textos en formato digital.
![Page 7: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/7.jpg)
Minería de texto
La minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos. (Swanson, 1991, p. 280-289)
![Page 8: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/8.jpg)
Minería de texto
El descubrimiento de información significativa y esencial de los documentos en grandes corpus textuales electrónicos, estructurados y no estructurados.
![Page 9: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/9.jpg)
Minería de texto
Clasificar y organizar documentos según su contenido; es decir, preseleccionar automáticamente grupos de documentos con un tema específico.
![Page 10: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/10.jpg)
Categorías
![Page 11: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/11.jpg)
Categorías
![Page 12: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/12.jpg)
Minería de texto
![Page 13: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/13.jpg)
El procesamiento de texto
Los textos son representados en estructuras que permitan su análisis automático
01 D end_punctuation :,=;/.01 N compress '[]|01 N to_blank !"()-{}<>;:.?/\@*%=^_`~01 N comma01 N del_subfield_code 01 N char_conv FILING-KEY-1001 N del_lead_space01 N to_lower01 N pack_spaces01 F char_conv FILING-KEY-01
FILING-KEY-01 ##### # line_utf2line_utf unicode_to_filing_01FILING-KEY-02 ##### # line_utf2line_utf unicode_to_filing_02FILING-KEY-10 ##### # line_utf2line_utf naco_diacriticsFILING-KEY-11 ##### # line_utf2line_utf unicode_to_filing_11
![Page 14: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/14.jpg)
Extracción de palabras
![Page 15: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/15.jpg)
Análisis
Consiste en realizar una cuantificación de las características (es decir, de los términos) de los documentos.
![Page 16: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/16.jpg)
Modelo vectorial
Una de las técnicas utilizadas en la minería de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensión n y es representado de la siguiente manera:
,
),...,(2,1 itiiitttD
![Page 17: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/17.jpg)
Frecuencia de las palabras
a) Se calcula la frecuencia de las palabras en el documento, donde K representa el término en el documento I
IKFREQ
![Page 18: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/18.jpg)
Frecuencia total
b) Se calcula la frecuencia total del término K en todos los documentos
N
IIKK FREQTOTALFRECQ
1
![Page 19: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/19.jpg)
Frecuencia de palabras
Análisis 2 0 2 2 1.5 0.176 0.352 0 0.352
documental 2 1 23 1 0 0 0 0
información 1 0 01 3 0.477 0.477 0 0
textual 1 0 0 1 3 0.477 0.477 0 0
Lenguajes 1 2 0 2 1.5 0.176 0.176 0.352 0
documentales 1 0 01 3 0.477 0.477 0 0
herramienta 1 0 01 3 0.477 0.477 0 0
libres 0 1 0 1 3 0.477 0 0.477 0
controlados 0 1 0 1 3 0.477 0 0.477 0
proceso 0 1 0 1 3 0.477 0 0.477 0
indización 0 1 0 1 3 0.477 0 0.477 0
procesamiento 0 1 01 3 0.477 0 0.477 0
automático 0 1 0 1 3 0.477 0 0.477 0
texto 0 1 0 1 3 0.477 0 0.477 0
orígenes 0 0 1 1 3 0.477 0 0 0.477
padre 0 0 1 1 3 0.477 0 0 0.477
![Page 20: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/20.jpg)
indización
Palabras no significativas Altas frecuencias
Palabras no significativas Bajas frecuencias
Palabras significativas
![Page 21: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/21.jpg)
Ley de Zipf
• Texto en lenguaje natural.
• Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F
• El número de orden de cada palabra es su rango, R
• Análisis de la frecuencia de las palabras
F=K/R FxR=K
La frecuencia , F, de aparición de una palabra en un texto
es inversamente proporcional a su rango, R. Frecuencia por el rango igual a constante (k)
“Ley del mínimo esfuerzo”
![Page 22: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/22.jpg)
Frecuencias de Stopword
Posición Frecuencia Palabras1 18205668 de2 10821113 la3 7190346 y4 6946343 en5 6769416 el6 6459010 que7 5030018 a8 4505566 los9 3675272 se10 3225267 del
![Page 23: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/23.jpg)
Ley de Zipf
![Page 24: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/24.jpg)
Frecuencias de Stopword
![Page 25: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/25.jpg)
Ley de Zipf
![Page 26: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/26.jpg)
Semejanza de documentos
![Page 27: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/27.jpg)
Matriz de documentos
a) Si se realiza el cálculo de similitud entre renglones se pude determinar la semejanza entre documentos.
tTTT 21
ntnn
t
t
ddd
ddd
ddd
Dn
D
D
21
22221
11211
2
1
![Page 28: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/28.jpg)
Matriz de documentos
b) Si se realiza el cálculo de similitud entre columnas se pueden obtener las relaciones entre términos.
tTTT 21
ntnn
t
t
ddd
ddd
ddd
Dn
D
D
21
22221
11211
2
1
![Page 29: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/29.jpg)
Archivos digitales en texto
Total de títulos procesados 1868 (Año 2005)
Total de archivos 22721
Tiempo de proceso 60 minutos
Total de palabras 162723663
Stopwords 117323884 (72.90%)
Palabras útiles 45399779 (27.90%)
![Page 30: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/30.jpg)
Palabras/Diccionario
![Page 31: Minería de texto](https://reader033.fdocuments.es/reader033/viewer/2022061505/56813267550346895d9902e2/html5/thumbnails/31.jpg)