ReglasAsociacionYArboles
-
Upload
arturo-gomzo -
Category
Documents
-
view
214 -
download
0
Transcript of ReglasAsociacionYArboles
-
7/21/2019 ReglasAsociacionYArboles
1/26
Minera de datos (Reglas de asociacion y arboles de
decision)
M. en C. Sergio Luis Perez Perez
UAM CUAJIMALPA, MEXICO, D. F.Trimestre 14-I.
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 1 / 26
http://find/ -
7/21/2019 ReglasAsociacionYArboles
2/26
Reglas de asociacion y dependencia
Reglas de asociacion y dependenciaI
Reglas de asociacion
Permiten expresar patrones de comportamiento entre los datos en
funcion de su aparicion conjunta, expresando las combinaciones
de valores de los atributos que ocurren mas veces.
Formalmente son una proposicion probabilstica sobre laocurrencia de ciertos estados sobre el conjunto de datos.
Aplicaciones practicas
Analisis de patrones de compra en los supermercados. (Paramejorar la distribucion de los productos)
Busqueda de patrones en paginas web. (Conocer la navegacion
mas frecuente de los usuarios sobre una pagina web)
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 2 / 26
http://find/ -
7/21/2019 ReglasAsociacionYArboles
3/26
Reglas de asociacion y dependencia
Reglas de asociacion y dependenciaII
Cliente Vino1 Sodas Vino2 Horch. Dulces Galletas Choc.C1 1 1 0 0 0 1 0
C2 0 1 1 0 0 0 0
C3 0 0 0 1 1 1 0
C4
1 1 0 1 1 1 1
C5 0 0 0 0 0 1 0
C6 1 0 0 0 0 1 1
C7 0 1 1 1 1 0 0
C8 0 0 0 1 1 1 1
C9 1 1 0 0 1 0 1C10 0 1 0 0 1 0 0
SIdulcesYhorchataENTONCESgalletas
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 3 / 26
http://find/ -
7/21/2019 ReglasAsociacionYArboles
4/26
Reglas de asociacion y dependencia
Reglas de asociacion y dependenciaIII
SeaA={
a1, . . . , a
n}un conjunto den=
|A
|elementos.
Xes un conjunto de elementos deAsiXA.
Del ejemplo anteriorA = {Vino1, Sodas, Vino2, Horchata, Dulces,
Galletas, Chocolates} y una posibleX ={Vino2, Dulces,Chocolates}.
Una regla de asociacion puede ser vista como una regla de la
forma
SIENTONCES
Donde, Atal que =
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 4 / 26
http://goforward/http://find/http://goback/ -
7/21/2019 ReglasAsociacionYArboles
5/26
Reglas de asociacion y dependencia
Reglas de asociacion y dependenciaIV
Medidas para conocer la calidad de la regla:
Cobertura: Es el numero de instancias que la regla predicecorrectamente.
Confianza: Es el porcentaje de veces que la regla se cumple todavez queesta puede ser aplicada.
Tipos de reglas aplicables:
Segun el tipo de valor: Los atributos son binarios, con mas de dosvalores o bien atributos numericos.
SI DulcesY GalletasENTONCES ChocolatesSI Pas = MexicoENTONCES Corrupcion = Alta
18 SI Edad 24ENTONCES Estudiando = Universidad
Multidimensionales: Consiste en agregar diversas categoras auna regla.
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 5 / 26
http://find/ -
7/21/2019 ReglasAsociacionYArboles
6/26
Reglas de asociacion y dependencia
Reglas de asociacion y dependenciaV
SI Comprar(Vino1)Y Cliente(Juan)Y Tiempo(Diciembre)ENTONCES Comprar(Sodas)
Incrementar el nivel de abstraccion: Ver un conjunto de artculos
a un nivel mas general o particular.SI Comprar(BebidaAlcoholica)ENTONCES Comprar(Sodas)
Instantaneas o secuenciales: Relaciones que ocurren en uninstante de tiempo.
SI Comprar(Vino1)Y Comprar(Vino2)Y Comprar(Sodas)ENTONCES Comprar(Cigarros)
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 6 / 26
http://goforward/http://find/http://goback/ -
7/21/2019 ReglasAsociacionYArboles
7/26
Reglas de asociacion y dependencia
Reglas de asociacion y dependenciaVI
Algoritmo Apriori
Es un algoritmo de aprendizaje de reglas de asociacion.
El algoritmo busca conjuntos de elementos con determinada
cobertura mnima.Se parte de conjuntos de elementos con un elemento.
Despues se realiza un proceso incremental hasta que ya no es
posible construir conjuntos mas grandes.
Al final se construye el conjunto de reglas a partir de los conjuntos
devueltos.
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 7 / 26
R l d i i d d i
http://find/ -
7/21/2019 ReglasAsociacionYArboles
8/26
Reglas de asociacion y dependencia
Reglas de asociacion y dependenciaVII
Algoritmo Apriori (D: datos,MinC: cobertura mnima)
i0Inicializa(C0)whileCi= do
L
for allxCi doifCobertura(x)MinCthen
L= L {x}end if
end for
ii+1Ci=Selecciona Candidatos(L)
end while
returnCi
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 8 / 26
R l d i i d d i
http://find/ -
7/21/2019 ReglasAsociacionYArboles
9/26
Reglas de asociacion y dependencia
Reglas de asociacion y dependenciaVIII
Desventajas de las reglas de asociacion
La desventaja de las reglas de asociacion es que no permiten
detectar la ausencia de elementos.
SI Comprar(Tequila)=1Y Comprar(RefrescoToronja)=1
ENTONCES Comprar(RefrescoCola) = 0
Estos casos ocurren cuando nos interesa que un elemento pueda
tomar mas de un valor.
Se podra extender el algoritmo Apriori si consideramos losdistintos valores que puede tomar un elemento como elementos
separados.
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 9 / 26
Reglas de asociacion y dependencia
http://find/ -
7/21/2019 ReglasAsociacionYArboles
10/26
Reglas de asociacion y dependencia
Reglas de asociacion y dependenciaIX
Reglas de dependencias
Una regla de dependencia es cualquier conjunto de variables deelementos que son dependientes.
Dos eventos son independientes si:
p(A B) =p(A) p(B)
La dependencia de dos elementos se mide como:
p(A B)
p(A) p(B)=X
Donde siX =1 entonces los elementos son independientes,siX>1 existe una dependencia positiva,
siX
-
7/21/2019 ReglasAsociacionYArboles
11/26
Arboles de decision
Arboles de decisionI
Un Arbol de decisi ones un conjunto de condiciones organizadasen una estructura jerarquica.
La decision final depende del camino que se toma desde la raz
del arbol.
Pueden aplicarse a procedimientos medicos, legales,
comerciales, etc.
Las opciones posibles a partir de una condicion son excluyentes.Es decir, en todo momento se llegara a una sola decision.
El modelo resultante es inteligible para las personas.
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 11 / 26
Arboles de decision
http://find/ -
7/21/2019 ReglasAsociacionYArboles
12/26
Arboles de decision
Arboles de decisionII
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 12 / 26
Arboles de decision
http://find/ -
7/21/2019 ReglasAsociacionYArboles
13/26
Arboles de decision
Arboles de decisionIII
SIAstig= NoY25
-
7/21/2019 ReglasAsociacionYArboles
14/26
Arboles de decision
Arboles de decisionIV
Algoritmo Particion (N: nodo,E: conjunto de ejemplos)
functionPARTICION(N,E)
iftodos los ejemplos deEson de la misma clase cthen
Asignar la clasecaN
else
Particiones Generar Posibles ParticionesMejorParticion Particionesfor allcondicionide la particion elegidado
Anadir un hijoiaNy asignar los ejemplos consistentes a
cada hijoEiParticion (i,Ei)
end for
end if
end function
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 14 / 26
Arboles de decision
http://find/ -
7/21/2019 ReglasAsociacionYArboles
15/26
Arboles de decisionV
EjemploPaciente Astigmatismo Miopa Edad Operado
P1 S 3.5 20 S
P2 S 8 20 No
P3 No 3.5 16 NoP4 No 2 25 Si
P5 No 1 26 No
P6 S 0.5 30 Si
P7 No 0 28 No
P8 S 7 25 NoP9 S 1 30 S
P10 S 3 20 Si
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 15 / 26
Arboles de decision
http://find/ -
7/21/2019 ReglasAsociacionYArboles
16/26
Arboles de decisionVI
Posibles particiones
Nominales: Si un atributoxies nominal tendra los posiblesvalores{v1, . . . ,vk}As el arbol no necesariamente sera binario.
Numericas: Lo mas comun es tomar intervalos debido a que el
espacio de posibles valores podra ser infinito.
xia, xi>a
Dondeaes la constante numerica que toma la instancia.
El numero de particiones posibles puede ser muy grande.
Seanel numero de atributos con a lo masmposibles valores, el
numero de particiones posibles esO(n m).
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 16 / 26
Arboles de decision
http://find/ -
7/21/2019 ReglasAsociacionYArboles
17/26
Arboles de decisionVII
En cada nodo se pretende buscar particiones que consigan
nodos mas puros.
Cualquier criterio busca la particion con el menorEtal que
E=
j...
n
pj f(p1
j ,p2
j , . . . ,pc
j)
Dondenes el numero de nodos hijos de la particion,
pjes la probabilidad de caer en el nodo j,
pijes la proporcion de elementos de la clase i en el nodo j,
ces el numero de clasesCriterio f(p1j ,p
2j , . . . ,p
cj)
Error esperado mn(p1,p2, . . . , pc)
Gini 1
(pi)2
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 17 / 26
Sistemas de Reglas
http://find/ -
7/21/2019 ReglasAsociacionYArboles
18/26
Sistemas de ReglasI
Un arbol de decision permite generar un conjunto de reglas.
Un conjunto de reglas no necesariamente permite construir un
arbol.
SIAstig= NoYMiopa>6ENTONCESNoSI2550ENTONCESNo
SiEdad 25ENTONCESNoSiMiopa>10ENTONCESNo
EN OTRO CASO S
Existen metodos que generan reglas siempre que vayan
cubriendo instancias de manera consistente.
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 18 / 26
Sistemas de Reglas
http://find/ -
7/21/2019 ReglasAsociacionYArboles
19/26
Sistemas de ReglasII
A este tipo de tecnicas se les llamam etodos por cobertura.
Una tecnica es elAlgoritmo Cobertura.
Se aplica para cada clase que se desea obtener en la
clasificacion.
Las instancias que pertenecen a la clase de interes se denominan
ejemplos positivos y todas las demas ejemplos negativos.
Al final el algoritmo regresa un conjunto de reglas que permitiran
clasificar las instancias que mejor se adecuan a cada clase.
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 19 / 26
Sistemas de Reglas
http://find/http://goback/ -
7/21/2019 ReglasAsociacionYArboles
20/26
Sistemas de ReglasIII
Algoritmo Cobertura (Epos,Eneg: ejemplos positivos y negativos)
Reglas whileEpos= y NO ParadaReglasdo
NuevaRegla Eneg ActEneg
whileEneg Act= y NO ParadaCondicionesdoCondicion Seleccionar una condicion segun criterioNuevaRegla NuevaRegla {Condicion}Eneg ActEj. negativos consistentes con NuevaRegla
end while
Reglas {NuevaRegla}EposEposEjemplos cubiertos por NuevaRegla
end while
returnReglas
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 20 / 26
Sistemas de Reglas
http://find/ -
7/21/2019 ReglasAsociacionYArboles
21/26
Sistemas de ReglasIV
EjemploPaciente Astigmatismo Miopa Edad Operado
P1 S 3.5 20 S
P2 S 8 20 No
P3
No 3.5 16 No
P4 No 2 25 Si
P5 No 1 26 No
P6 S 0.5 30 Si
P7 No 0 28 No
P8 S 7 25 NoP9 S 1 30 S
P10 S 3 20 Si
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 21 / 26
Sistemas de Reglas
http://find/ -
7/21/2019 ReglasAsociacionYArboles
22/26
Sistemas de ReglasV
Los metodos por particion de reglas pueden ser mas eficientespues cada particion genera dos o mas reglas, pero pueden
devolver modelos sobreajustados.
Los metodos por cobertura son menos exhaustivos pero pueden
clasificar ejemplos que quiza en realidad sean ruido.
Ambos metodos se adecuan bastante al conjunto de instancias
base por lo que pueden funcionar mal para nuevos individuos.
Para evitar esto se pueden aplicar algunas tecnicas con la
finalidad de obtener modelos mas generales.
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 22 / 26
http://find/http://goback/ -
7/21/2019 ReglasAsociacionYArboles
23/26
Sistemas de Reglas
-
7/21/2019 ReglasAsociacionYArboles
24/26
Sistemas de ReglasVII
Pospoda
Se aplica sobre el conjunto de reglas generado.
En el caso de los arboles consiste en eliminar hijos desde las
hojas hasta un cierto nivel.
En el caso de los sistemas de reglas se trata de eliminar
condiciones con la finalidad de tener reglas mas generales.
La pospoda genera mejores resultados pues se aplica a la vision
completa del modelo.
La prepoda no genera nada que luego deba eliminarse
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 24 / 26
Arboles de decision para regresion
http://find/ -
7/21/2019 ReglasAsociacionYArboles
25/26
Arboles de decision para regresionI
Se construyen de forma similar a los arboles de decision para
clasificacion.
La funcion aprendida tiene un dominio real.
Los nodos hoja del arbol se etiquetan con valores reales.
Se puede utilizar la varianza como medida de calidad respecto a
los ejemplos que caen en cierta hoja.
La idea es modificar adecuadamente la funcion de particion.
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 25 / 26
Arboles de decision para regresion
http://find/ -
7/21/2019 ReglasAsociacionYArboles
26/26
Arboles de decision para regresionII
Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 26 / 26
http://find/