Evaluación de resultados de agrupamiento de documentos en...
Transcript of Evaluación de resultados de agrupamiento de documentos en...
Evaluación de resultados de
agrupamiento de
documentos en formato XMLH. J. Vázquez, C.K. Galindo-Durán
M.J. MathieuMéxico–Francia
Departamento de SistemasUniversidad Autónoma Metropolitana
Araucaria heterophylla (Salisb.) Franco araucaria, pino de la isla de Norfolk
ARAUCARIACEAE
Información Básica
Lugar de origen. Especie endémica de la isla de Norfolk, al este de Australia, en el océano Pacífico. En la actualidad se cultiva extensamente como árbol ornamental en zonas tropicales, subtropicales y templadas. Descripción. Árbol dioico perennifolio de hasta 30 m de altura; su tronco es recto y su copa cónica y simétrica, con ramas primarias horizontales dispuestas en un solo plano alrededor del tronco, en forma de estrella y en verticilos de 4 a 7. Puede vivir hasta 100 años. Hojas. Desarrollados tipos de follaje, de acuerdo con su edad. Las hojas jóvenes son delgadas y recurvadas, de 1.3cm de largo. Las hojas adultas son de forma ovado-triangular, de unos 0.6 mm de largo y de 0.3 a 0.6 mm de ancho; son de color verde intenso, curvadas, con la punta dura, y están sobrepuestas densamente sobre las ramillas. Conos. Los masculinos son estróbilos alargados, de aproximadamente 5 cm de largo; los femeninos miden de 10 a 13 cm de largo, y son de forma subglobosa, leñosos, erguidos y con numerosas escamas. Corteza. Rugosa, hendida, color marrón oscuro; con la edad se desprende en placas delgadas. Usos. En México se utiliza principalmente como planta de ornato, por lo atractivo de su porte cónico y la simetría de sus ramas horizontales o levemente oblicuas. Tiene la facultad de detener su crecimiento, por lo que se le puede cultivar en maceta. Distribución en la ciudad. Se encuentra con frecuencia en jardines privados, adornando algunos edificios, y en ocasiones en los parques antiguos de la ciudad.
Requerimientos de cultivo
Clima. Se cultiva en regiones templadas y subtropicales de México, pero es dañada por las heladas severas. Es tolerante a los Vientos. Suelo. Se desarrolla adecuadamente en texturas arcillosas o arenosas; pueden ser suelos de alcalinos a ácidos. Es tolerante a la salinidad, pero requiere buen drenaje. Exposición. Se desarrolla a pleno sol, pero es tolerante a la sombra, resistente a los vientos fuertes y a los rocíos salinos. Poda. No se debe podar, ya que pierde la forma característica por la que es valorada. Riego. Requiere riego abundante, al menos una vez al mes, cuando ya se ha establecido. Fertilización. Debe ser fertilizado al menos una vez al año, cuando el suelo es pobre en materia orgánica. Plantación. Debe plantarse a una distancia mínima de 8 metros de cualquier construcción o árbol. Es conveniente que se desarrolle en un espacio amplio que permita contemplar la belleza de su porte. Raíz. Las plántulas producen una raíz pivotante y numerosas raíces laterales fibrosas. Los árboles adultos no forman raíces laterales masivas cerca de la superficie, por lo que
Washingtonia robusta H. Wendl. palmera, palma de California, palma del desierto, palma washingtonia
ARFCACEAE
Información básica
Lugar de origen. Especie endémica del sur del estado de Sonora y Baja California. Descripción. Palmera dioica perennifolia mide de 9 a 15m de altura. Su copa simétrica, de hasta 3 m de ancho, da una sombra ligera. Su estípite es recto, cilíndrico y ensanchado en la base; está cubierto a lo largo por las hojas secas que, al caer, dejan marcas, que le dan una consistencia leñosa y áspera muy persistente. Es de rápido crecimiento y vive hasta 90 años. Hojas. El arreglo de las hojas es en espiral. Son palmatisectas, en forma de abanico, y de hasta 1.5 m de ancho y de 0.3 a 1.5m de largo. Están divididas hasta un tercio de lalámina, son de color verde oscuro grisáceo opaco, y con ninguno o muy pocos filamentos fibrosos en sus márgenes, lo que la diferencia de W.folofera. Sus pecíolos son de hasta 1m de largo, rígidos, café rojizos, y con espinas curvadas en los bordes. El envés de la lígula con tomento marrón tiene segmentos más estrechos, de 3 cm, y más divididos, lo que les da un aspecto colgante. Las hojas mueren cuando termina el verano y se quedan pegadas al tronco, formando una cubierta densa debajo de aquellas que están vivas. Flores. Sus inflorescencias tienen forma de racimos, con pedúnculos muy notorios, de 2 o 3m de largo, que surgen de la base de las hojas superiores. Las flores son unisexuales y diminutas, miden 1 cm, son de color blanco y algo fragante. Cada flor se forma de un cáliz tubular, pecíolo corto, 6 estambres y ovario con 3 lóbulos. Aparecen en primavera. Las palmas cultivadas tienen sus primeras floraciones casi a los 20 años. Frutos. Sus frutos son bayas ovaladas que se agrupan en racimos colgantes. Miden de 2 a 4 cm de largo y son de color negro. Son comestibles, de sabor azucarado y atractivos para la fauna silvestre, Cada baya contiene una semilla aplanada de color oscuro. Corteza. Su corteza se forma de estrías anulares, ya que al caer las hojas dejan un patrón de franjas leñosas entrecruzadas alrededor del tronco, que le dan una consistencia áspera; es de color marrón grisácea y su madera es suave, clara, esponjosa y fibrosa. Usos. Aunque en las últimas décadas su uso se ha reducido, son plantas ornamentales muy apropiadas para parques y jardines. Es apreciada en todo el mundo, ya que crea un ambiente muy atractivo cuando se planta en conjuntos. Tiene el potencial de ser utilizada con fines de protección de suelos en zonas secas y áridas, así como para fijación de dunas. En su lugar de origen, las hojas se emplean para hacer sombreros, cestos y otros artículos; los troncos se usan como material para cercas y como vigas. Las flores, frutos y yemas vegetativos son utilizados como alimento, y la madera sirve paro construir utensilios caseros. Sus hojas secas se emplean como sombra contra la insolación excesiva. Distribución en la Ciudad. Se encuentra en diferentes parques, jardines y camellones de la Ciudad de México, por ejemplo en la avenida Palmas, en el Parque Hundido y en el Parque Tezozómoc
MATRIZ DE FRECUENCIAS" pero lugar ""arbol1 4 1 ""arbol2 2 0 ""arbol3 0 1 ""arbol4 3 1 ""arbol5 1 1 ""arbol6 1 1 ""arbol7 1 0 ""arbol8 1 0 ""arbol9 2 2 ""arbol10 0 0 "
MATRIZ DE AUSENCIA PRESENCIA "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4 1 1 ""arbol5 1 1 ""arbol6 1 1 ""arbol7 1 0 ""arbol8 1 0 ""arbol9 1 1 ""arbol10 0 0 "
Muestra tamaño n yConteo de m
Tokens
Matriz (n,m)
DocumentosXML
Muestra aleatorian
ProcesamientoDocumentos
XML
Generación de clusters(cúmulos, grupos),
Tokensdiferentes
Validación
Objetivos del agrupamiento
Selección de tokens, verificación y
corrección de laMatriz
normalización
Selección de métricas y métodos
Muestra piloto
Selecciónde tokens
Matriz (945,12543)
M(914,12481)
M(914,11916) M(914,11289)
¿Cuántos agrupamientos?
¿Cuatro?
¿Dos?
¿Seis?
Método Jerárquico:
¿Cómo medir la distancia entre clusters?
� MINsimple
� MAXcompleta
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
xy
Iteration 2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
xy
Iteration 6
Maximizar distancia
inter-cluster
Minimizar distancia
intra-cluster
Davies Bouldin
Agrupamiento
Métricas (15) = manhattan", "euclidean", "canberra", "bray", "kulczynski", "jaccard", "gower", "altGower", "morisita", "horn", "mountford", "raup" , "binomial“, "chaonormalización (11)= distintas normalizaciones
Métodos Jerárquicos (7)= "ward", "single", "complete", "average", "mcquitty", "median" ,"centroid"clusters (2,10, 20, 30, 50, 75))=
Compacto
Conexión
Separación
Validación y
Objetivos
Compacto6930 combinaciones
0
2
4
6
8
10
12
1 2 3 4 5 6
Título del eje
Indice de Dunn
e-s
j-s
j-w
K means
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1 2 3 4 5 6
Indice Davies Bouldin
single single ward K means
clusters e-s j-s j-w K means
2 9.657936 7.1673892 7.0935031 9.657936
10 7.782547 0.1592864 0.1621816 1.6753263
20 6.230406 0.157715 0.11215897 1.6458254
30 5.755786 0.08041927 0.11215897 1.928777
50 4.441091 0.08041927 0.0894719 1.5848341
75 3.904634 0.06326137 0.0894719 1.7040053
euclidiana jaccard jaccard
clusters single single ward K means
2 0.103542 0.1395208 0.2097001 0.1035418
10 0.119803 0.1405597 0.7578515 0.5527422
20 0.141521 0.3460481 0.7908256 0.6158911
30 0.1525691 0.4945334 0.8373291 0.4374352
50 0.1800001 0.476655 0.8442814 0.5480018
75 0.2019422 0.592513 0.8532114 0.4980223
n0 - without normalizationn1 - standardization ((x-mean)/sd)n2 - Weber standardization ((x-Me)/MAD)n3 - unitization ((x-mean)/range)n4 - unitization with zero minimum ((x-min)/range)n5 - normalization in range <-1,1> ((x-mean)/max(abs(x-mean)))n6 - quotient transformation (x/sd)n7 - quotient transformation (x/range)n8 - quotient transformation (x/max)n9 - quotient transformation (x/mean)n10 - quotient transformation (x/sum)n11 - quotient transformation(x/sqrt(SSQ))