Modelos dispersos para el procesamiento de señales y...
Transcript of Modelos dispersos para el procesamiento de señales y...
Modelos dispersos para el procesamiento deseñales y aprendizaje de máquinas
Alejandro Weinstein
Escuela de Ingeniería BiomédicaUniversidad de Valparaíso
28 de octubre de 2015
1 / 38
¿Qué es una señal dispersa?
DefiniciónUna señal x ∈ RN es K-dispersa (K < N) si a lo más K coeficientesson distintos de zero. Formalmente
||x||0 ≤ K
Ejemplo: N = 10, K = 2
x =[0 0 3.14 0 0 0 0 −2.71 0 0
]
En general nos interesan los casos en que K � N
2 / 38
¿Qué es una señal dispersa?
DefiniciónUna señal es aproximadamente K-dispersa si, dado ε > 0
||x− xK ||2 ≤ ε,donde xK es igual a x en las K posiciones más grande (en magnitud), ycero en el resto.
Ejemplo: N = 10, K = 2
x =[−0.02 0.1 3.14 −0.03 −0.01 0.01 −0.02 −2.71 0.02 0.03
]
xK =[0 0 3.14 0 0 0 0 −2.71 0 0
]
||x− xK ||2 = 0.12
3 / 38
¿Por qué señales dispersas?Imagen original, 614400 pixels
Aproximacion usando 10 % de los coeficientes
k10−1
100
101
102
103
104
105
106
mag
nitu
d
Coeficientes Wavelets, ordenados por magnitud
4 / 38http://www.flickr.com/photos/bibiweb/6931027375/
Usando la dispersión como modelo
“Esencialmente, todos los modelos son incorrectos, peroalgunos modelos son útiles.”
George Box
5 / 38
Compressive Sensing (CS)
Es posible diseñar sistemas de adquisición que tome un número demediciones muy por debajo del tamaño de la señal
Útil cuando cada medición es:
I CaraI Lenta
6 / 38E.J. Candès and M.B. Wakin, (2008). An Introduction To Compressive Sampling
Ejemplo: MRICS aprovecha dos hechos:
I Las imágenes médicas se pueden comprimirI En MRI cada medición contiene información de todas las
muestras
Original Wavelets Compress (10%)(M. Lustig et al., “Compressed Sensing MRI”)
Usando CS es posible reducir el tiempo de escaneo de unaangiografía 3D de 22 a 4.4 segundos
7 / 38M. Lustig et al., Sparse MRI: The application of compressed sensing for rapid MR imaging
La cámara de 1 pixel ocho años después
9 / 38
¿Cómo funciona?
x = Ψα
y = Φx
}⇒ y = ΦΨ︸︷︷︸
A
α
Dado y y A queremos recuperar αy A α
I El sistema es indeterminadoI De las∞ soluciones, elegimos la más dispersa
10 / 38
¿Cómo funciona?Queremos resolver
minimizeα
‖α‖0
subject to Aα = y
pero es muy difícil (NP-hard)
En vez, relajamos el problema original y resolvemos
minimizeα
‖α‖1
subject to Aα = y
Existen condiciones bajo las cuales ambos problemas sonequivalentes
11 / 38
Interpretación geométrica
Norma p: ||x||p =
(n∑
i=1
|xi|p) 1
p
Bola p de diámetro r: Bp(r) = {x ∈ Rn : ||x||p < r}
B0(r) B1(r) B2(r)
12 / 38
Interpretación geométrica
minimizeα
‖α‖2
subject to Aα = y
minimizeα
‖α‖1
subject to Aα = y
13 / 38
Otro punto de vista
Se puede pensar en CS como una instancia de la navaja de Occam:
“Entre todas las explicaciones que se ajustan a los datosacepta la más simple”
����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
1?or 2?
14 / 38David Mackay, “Information Theory, Inference, and Learning Algorithms”
CS en presencia de ruido
Si las observaciones son ruidosas:
y = Φx + η, ||η||2 ≤ εpodemos recuperar la señal resolviendo
minimizeα
‖α‖1
subject to ||Aα− y||2 ≤ ε
15 / 38
Garantía teórica
Bajo ciertas condiciones, es posible demostrar que
||x? − x||2 ≤C0 ||x− xK ||1√
K+ C1ε,
donde
x?: Señal recuperadaC0,C1: Constantes
K: Nivel de dispersiónxK : Mejor K-aproximación de x
16 / 38E.J. Candès and M.B. Wakin, (2008). An Introduction To Compressive Sampling
Garantía teórica
x = Ψα
y = Φx
}⇒ y = ΦΨ︸︷︷︸
A
α
Ψ: Base de representaciónΦ: Base de muestreo
Coherencia entre la base de representación y muestreo:
µ(Φ,Ψ) =√
n max1≤j,k≤n
| 〈φj, ψk〉 |
17 / 38E.J. Candès and M.B. Wakin, (2008). An Introduction To Compressive Sampling
Garantía teóricaNecesitamos pares Φ, Ψ con baja coherencia. Ejemplo:
I Tiempo y frecuenciaI Frecuencia y waveletsI Aleatorio y cualquier base fija
y A α
18 / 38
Más allá de modelos dispersos
I Señales dispersas agrupadasI Minimizar la complejidad de Kolgomorov o Minimum Description
Length (MDL)I Dictionary learning
19 / 38Bach et al., (2011). Structured sparsity through convex optimization
Aprendizaje de máquinas
El problema que uno resuelve en CS se puede escribir como
minimizex
12||Ax− y||22 + λ‖x‖1
En aprendizaje de máquinas/estadística esta formulación se conocecomo lasso (least absolute shrinkage and selection operator).
20 / 38R. Tibshirani (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society.
Lasso: EjemploObservamos 10 datos en el intervalo [−1, 1] generados por
y = 2x5 + 1.5x3 + 0.5x2 + η, η ∼ N (0, 0.42)
Asumimos que los datos siguen un polinomio de a lo mas grado 10
−1.0 −0.5 0.0 0.5 1.0x
−3
−2
−1
0
1
2
3
4
5
y
Least squares
originaldataLS
−1.0 −0.5 0.0 0.5 1.0x
−3
−2
−1
0
1
2
3
4
5
y
Lasso λ = 0.12
originaldataLASSO
yLS = −54x10 + 3.1x9 + 39x8
− 3.2x7 + 77x6 + 2.4x5 − 84x4
+ 3x3 + 24x2 − 0.01x− 0.8
yLASSO = 2.6x5 + 1.5x3 + 0.01
21 / 38
Graph Lasso
Dadas las muestras y1, . . . , yn ∼ N (σp, µ), Graph Lasso estima lacovarianza como
Σ−1 = argmaxX�0
{log det X − tr(SX)︸ ︷︷ ︸log-likelihood
− λ ||X||1︸ ︷︷ ︸penalización
},
con
S :=1n
n∑
k=1
(yk − µ)(yk − µ)T , ||X||1 =∑
i,j
abs(xij)
Notar que xij = 0 implica que las variables xi y xj son condicionalmenteindependientes.
22 / 38O. Banerjee et al., (2007). Model Selection Through Sparse Maximum Likelihood Estimation for Multivariate Gaussian or BinaryData
Ejemplo Graph Lasso: Correlación entre accionesDada la variación diaria de 61 acciones durante 5 años queremos
encontrar posibles estructuras entre las acciones
3
3
vari
aci
on
ConocoPhillips American express
3
3
vari
aci
on
Raytheon Boeing
1 1200dia
3
3
vari
aci
on
Apple
1 1200dia
Pepsi
23 / 38
Ejemplo Graph Lasso: Correlación entre acciones
Procter Gamble
Walgreen
Kraft Foods
IBM
Texas instruments
HPComcast
Coca Cola
Kimberly-Clark
AIG
Kellogg
Valero Energy
Exxon
Mc Donalds
American express
Dell
3M
Mitsubishi
Canon
Wal-Mart
CVS
DuPont de Nemours
JPMorgan Chase
CablevisionTime Warner
Colgate-Palmolive
Microsoft
Raytheon
Unilever
Xerox
Yahoo
GlaxoSmithKline
SAP
Lookheed Martin
General Dynamics
Northrop Grumman
Boeing
Home Depot
Sanofi-Aventis
Pfizer
Novartis
Apple
Goldman Sachs
Cisco
Amazon
Wells Fargo
Bank of America Honda
FordCaterpillar
Sony
Pepsi
General Electrics
Toyota
Ryder
Marriott
Navistar
Chevron
ConocoPhillips
News Corp
Total
24 / 38http://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html
Declipping a Signal in Sparseland
Sampling DeclippingCl ≤ vin ≤ Cu
Cl
Cu
25 / 38
Problem Formulation
I Signal model: sparsity in thefrequency domain
x = Ψα
I Non-clipped observations
y = Φx = ΦΨα
=
1 0 0 0 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 0 0 0 00 0 0 0 0 1 0 0 0 0 0 00 0 0 0 0 0 1 0 0 0 0 00 0 0 0 0 0 0 0 0 0 1 00 0 0 0 0 0 0 0 0 0 0 1
y Φ xc
26 / 38
Problem Formulation
I Given α, the signal at theclipped locations is
xu =
Ψu︷︸︸︷ΦuΨα
xl = ΦlΨ︸︷︷︸Ψl
α
I Clipping constraints
Ψuα ≥ Cu
Ψlα ≤ Cl
=
0 0 1 0 0 0 0 0 0 0 0 00 0 0 1 0 0 0 0 0 0 0 00 0 0 0 1 0 0 0 0 0 0 0
xu Φu Ψα
27 / 38
Why sparse in the frequency domain?
n
Cl
0
Cu
k
wav
elet
coef
.
One-sparse signal in the Haar-Wavelet domain
28 / 38
Recovery Algorithms
Basis Pursuit
α = argminα∈CN
‖Wα‖1
s.t. ΦΨα = y(BP)
Basis Pursuit with ClippingConstraints
α = argminα∈CN
‖Wα‖1
s.t. ΦΨα = y
Ψuα ≥ Cu
Ψlα ≤ Cl
(BPCC)
29 / 38
Recovery Algorithms
Reweighted `1 Minimization with ClippingConstraints
Repeat
α(`) = argminα∈CN
‖W(`)α‖1
s.t. ΦΨα = y
Ψuα ≥ Cu
Ψlα ≤ Cl
W(`+1)i =
1
|α(`)i |+ ε
` =`+ 1
(R`1CC)
until convergence
30 / 38
Recovery Algorithms
n
Cl
Cu
BPBPCCR`1CC
x
31 / 38
Trivial Pursuit with Clipping Constraints (TPCC)
FFTEstimate Λ by selectingthe biggest harmonics
until ‖r‖ < εx = Ψ(ΦΨ)†Λy
32 / 38
Trivial Pursuit with Clipping Constraints (TPCC)
input: Φ, Ψ, xc, y, εinitialize: r = y, Λ(1) = ∅, ` = 1match: h = DFT{xc}while ‖r‖2 > ε do
identify: k = argmax0≤j≤N2|h(j)|
Λ(`+1) = Λ(`) ∪ {k, (N − k) mod N}h(k) = 0
update: α = argminz: supp(z)⊆Λ(`+1) ‖y− ΦΨz‖2
r = y− ΦΨα` = `+ 1
end whileoutput: x = Ψα = Ψ argminz: supp(z)⊆Λ(`) ‖y− ΦΨz‖2
33 / 38
Trivial Pursuit with Clipping Constraints (TPCC)
Sample (n)
=
Sample (n)
+
Sample (n)
Frequency (k)
=
Frequency (k)
+
Frequency (k)
34 / 38
How are we using the clipping constraints?
Trivial Pursuit (TP)
hTP = (ΦΨ)T y
= ΨT (ΦTy)
︸ ︷︷ ︸zero-padded version of y
n
ΦTy
Trivial Pursuit with clippingconstraints (TPCC)
hTPCC = ΨTxc
n
xc
35 / 38
Results
2 4 6 8 10 12 14 16 18 20Sparsity level K
0
20
40
60
80
100M
min
BPBPCCR`1CC
TPCCconsOMP
36 / 38
Results for Noisy Observations
n
−Cu
Cu
x + zx
n
−Cu
Cu
x + zx
37 / 38
Results for Noisy Observations
2 4 6 8 10 12 14 16 18 20Sparsity level K
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40N
orm
aliz
ed` 2
erro
rM=50M=70M=90
38 / 38