J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR
Clasificación Binaria
Índices de agregaciónAplicación de metaheurísticas
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Caso binario
• Ω = x1,x2,…,xn ⊆ 0,1p
• Definir un criterio (aditivo) W(P):
donde PPk es el conjunto de todas lasparticiones de Ω en k clases y δ midela homogeneidad de las clases Cl
∑=
∈=
k
l
lP
CPWk 1
)()(min δP
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Criterios de homogeneidad
)',(min)( ',min xxdC Cxx ∈=δ
)',(max)( ',max xxdC Cxx ∈=δ
∑ ∈=
CxxxxdC
',sum )',()(δ
∑ ∈=
Cxxxxd
CC
',pon )',(||2
1)(δ
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCRCriterios de homogeneidad (2)
∑ ∈−=
Cxxxxd
CCC
',med )',()1|(|||
1)(δ
∑ ∈−
−=
CxxCxxd
CCC
',
2
var )]()',([)1|(|||
1)( µδ
∑∑=
∈−=−=
p
j
jjCxL aCaCmxC1
1)||,min()()(
1δ
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Propiedades
• Todos los criterios δmin,…,δL1 tienen la propiedad de monotonicidad
• Óptimo para δmin: k-1 clases unitarias• Existe un óptimo para δmin,…,δ L1 con
clases no vacías
• Cualquier óptimo para δsum, δ pon y δ L1
tiene clases no vacías
• δvar satisface una propiedad de Huygens
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Propiedad tipo Huygens
Para cualquier clase C y cualquier número real β se satisface la descomposición:
2
var
2
´,
])([)(]´),([)1|(|||
1βµδβ −+=−
−∑
∈
CCxxdCC Cxx
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCRFórm. de recurrencia para δ(Cj-xi)
∑∈−−−
−=−
jCx i
jj
j
j
j
ij xxdnn
Cn
nxC ),(
)2)(1(
2)(
2)( medmed δδ
∑∈−=−
jCx ijij xxdCxC ),()()( sumsum δδ
∑∈−−
−=−
jCx i
j
j
j
j
ij xxdn
Cn
nxC ),(
1
1)(
1)( ponpon δδ
2
varvar ])([)(2
)( µµδδ −−−−
=− ijj
j
j
ij xCCn
nxC
∑−∈
−−−
−
2]),([)2)(1(
2
ij xCx
i
jj
xxdnn
µ
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCRFórm. de recurrencia para δ(Cl ∪xi)
∑∈+=∪
lCx ilil xxdCxC ),()()( sumsum δδ
∑∈++
+=∪
lCx i
l
l
l
lil xxd
nC
n
nxC ),(
1
1)(
1)( ponpon δδ
∑∈++
+
−=∪
lCx i
ll
l
l
lil xxd
nnC
n
nxC ),(
)1(
2)(
1
1)( medmed δδ
2
varvar ])([1
1)(
1
1)( µµδδ −∪
+
−+
+
−=∪ il
l
ll
l
lil xC
n
nC
n
nxC
∑∈
∪−+
+lCx
ili
ll
xCxxdnn
2)](),([)1(
2µ
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Fórm. actualización para L1
∑=
+−−−=−p
r
irjrjirjrijL xaCxaxC1
)1||,min()(1
δ
∑=
−−++=∪p
r
irlrlirlrilL xaCxaxC1
)1||,min()(1
δ
iroldjr
newjr xaa −=
iroldlr
newlr xaa +=
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCRUso de Heurísticas de Optimización
• Classical methods find local optima of W
• We have used heuristics with good
characteristics:
1. Simulated annealing
2. Tabu search
3. Genetic algorithms
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Uso de heurísticas• Transferencias• Calcular y• Sobrecalentamiento simulado: escoger al
azar i y l, aplicar la regla de Metropolis• Búsqueda tabú: generar una muestra de
vecinos seleccionando i y l; escoger el mejor vecino no tabú (usando un criterio de aspiración)
• Algoritmo genético: “cromosomas” = particiones, selección, mutaciones, cruzamiento
l
i
j CC →
)( ij xC −δ )( il xC ∪δ
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCRSob.Sim en Particionamiento
A partir de la partición P se genera P´ así:
Escoger al azar (unif. en [1,n]) un objeto x ∈ Ω
Escoger al azar(unif. en [1,k]) un índice de clase l
Colocar a x en la clase Cl
Nota: corresponde a lo que S. Régnier llamaba una
transfererencia
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Características
• Reversibilidad: la probabilidad de P → P´es la misma que la probabilidad de P´ → P
• Connectivity: siempre es posible generarcualquier partición P´ a partir de cualquierP (hay un número finito de transferencias)
• Los vecindarios tienen el mismo tamaño: n(k-1)
• Gss´ = 1/n(k-1)
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Particionamiento con BT
• Estado: partición P en k clases de Ω
• Criterio: minimizar W (se debe escoger δ)
• Movimiento: crear P´ por la transferencia de
un único elemento a una nueva clase
• Lista tabú: indicatriz de la clase que contenia
al objeto que fue transferido
• Aplicamos un criterio de aspiración
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR AG para particionamiento
• Estados o cromosomas: índices de clases
(2 2 3 1 1 1 3 2)
x1 x2 x3 ….. xn
• Función de adaptación: B(P) = W(Ω) - W(P)
• Selección: ruleta aleatoria proporcional a B
• Cruzamiento: con probabilidad pc (cromos.)
• Mutación: con probabilidad pm (alelos)
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR
Datos de universidades alemanas
• 49 universidades alemanas (Späth)• Tabla 49 × 56 (presencia-ausencia)• Uso de δsum y δpon
• k = 3, W = 287 (SS=100%, BT = 80%, k-medias: 20 veces)
• k = 6, W = 228 (SS=76%, BT = 70%, k-medias: 20 veces con W = 234)
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Resultados para δsum, δpon
• 20 aplicaciones de SS, BT y AG • 100 ejecuciones de k-medias basado en
transferencias• W es el mejor valor encontrado y % el
porcentaje de veces que este valor fue encontrado en las 20 aplicaciones de cada método.
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Resultados para δsum, δwsm
18.2 225.4 1018.2 9518.2 1006Pejibaye
10.7 1210.7 7510.7 10010.7 1006Späth
0.0 620.0 400.0 1000.0 1004Simulados
334.6 1744.4 10263.9 100263.9 1006Pejibaye
89.9 589.9 7589.9 1006Späth
0.0 342.0 200.0 1000.0 1004Simulados
KM
W %
AG
W %
BT
W %
SS
W %
kDatos
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Conclusiones en Clasif.Bin.
• El estudio muestra que es posible llevar a cabo particionamiento eficiente de datos binarios usando índices de agregación que no usan el concepto de centroide, combinados con metaheurísticas de optimización combinatoria.
• El desarrollo de propiedades teóricas de estos índices de agregación, que son importantes para la formulación de los algoritmos.
• Los resultados para δsum, δpon y δL1 son los mejores índices.
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Conclusiones en Clasif.Bin.
Las pruebas llevadas a cabo en algunos conjuntos de datos muestran que los métodos basados en metahaurísticaspueden dar mejores resultados que los métodos tradicionales.
J. Trejos: Metaheurísticas de Optimización Combinatoria en Clasificación Automática
CIMPA-UCR Conclusiones
• Para tabla de tamaño medio y muchas clases, SS es mejor y más rápido que BT y AG.
• Hasta ahora, AG no ha dado buenos resultados pero los parámetros aún pueden ser afinados para mejorar los resultados.
• Estamos planeando una comparación sistemática (simulaciones, métodos,...).
Top Related