Modelos dispersos para el procesamiento de señales y...

Modelos dispersos para el procesamiento deseñales y aprendizaje de máquinas

Alejandro Weinstein

Escuela de Ingeniería BiomédicaUniversidad de Valparaíso

28 de octubre de 2015

1 / 38

¿Qué es una señal dispersa?

DefiniciónUna señal x ∈ RN es K-dispersa (K < N) si a lo más K coeficientesson distintos de zero. Formalmente

||x||0 ≤ K

Ejemplo: N = 10, K = 2

x =[0 0 3.14 0 0 0 0 −2.71 0 0

]

En general nos interesan los casos en que K � N

2 / 38

¿Qué es una señal dispersa?

DefiniciónUna señal es aproximadamente K-dispersa si, dado ε > 0

||x− xK ||2 ≤ ε,donde xK es igual a x en las K posiciones más grande (en magnitud), ycero en el resto.

Ejemplo: N = 10, K = 2

x =[−0.02 0.1 3.14 −0.03 −0.01 0.01 −0.02 −2.71 0.02 0.03

]

xK =[0 0 3.14 0 0 0 0 −2.71 0 0

]

||x− xK ||2 = 0.12

3 / 38

¿Por qué señales dispersas?Imagen original, 614400 pixels

Aproximacion usando 10 % de los coeficientes

k10−1

100

101

102

103

104

105

106

mag

nitu

d

Coeficientes Wavelets, ordenados por magnitud

4 / 38http://www.flickr.com/photos/bibiweb/6931027375/

http://www.flickr.com/photos/bibiweb/6931027375/

Usando la dispersión como modelo

“Esencialmente, todos los modelos son incorrectos, peroalgunos modelos son útiles.”

George Box

5 / 38

Compressive Sensing (CS)

Es posible diseñar sistemas de adquisición que tome un número demediciones muy por debajo del tamaño de la señal

Útil cuando cada medición es:

I CaraI Lenta

6 / 38E.J. Candès and M.B. Wakin, (2008). An Introduction To Compressive Sampling

Ejemplo: MRICS aprovecha dos hechos:

I Las imágenes médicas se pueden comprimirI En MRI cada medición contiene información de todas las

muestras

Original Wavelets Compress (10%)(M. Lustig et al., “Compressed Sensing MRI”)

Usando CS es posible reducir el tiempo de escaneo de unaangiografía 3D de 22 a 4.4 segundos

7 / 38M. Lustig et al., Sparse MRI: The application of compressed sensing for rapid MR imaging

Ejemplo: cámara de 1 pixel

8 / 38http://dsp.rice.edu/cscamera

http://dsp.rice.edu/cscamera

La cámara de 1 pixel ocho años después

9 / 38

¿Cómo funciona?

x = Ψα

y = Φx

}⇒ y = ΦΨ︸︷︷︸

A

α

Dado y y A queremos recuperar αy A α

I El sistema es indeterminadoI De las∞ soluciones, elegimos la más dispersa

10 / 38

¿Cómo funciona?Queremos resolver

minimizeα

‖α‖0

subject to Aα = y

pero es muy difícil (NP-hard)

En vez, relajamos el problema original y resolvemos

minimizeα

‖α‖1

subject to Aα = y

Existen condiciones bajo las cuales ambos problemas sonequivalentes

11 / 38

Interpretación geométrica

Norma p: ||x||p =

(n∑

i=1

|xi|p) 1

p

Bola p de diámetro r: Bp(r) = {x ∈ Rn : ||x||p < r}

B0(r) B1(r) B2(r)

12 / 38

Interpretación geométrica

minimizeα

‖α‖2

subject to Aα = y

minimizeα

‖α‖1

subject to Aα = y

13 / 38

Otro punto de vista

Se puede pensar en CS como una instancia de la navaja de Occam:

“Entre todas las explicaciones que se ajustan a los datosacepta la más simple”

��

��

1?or 2?

14 / 38David Mackay, “Information Theory, Inference, and Learning Algorithms”

CS en presencia de ruido

Si las observaciones son ruidosas:

y = Φx + η, ||η||2 ≤ εpodemos recuperar la señal resolviendo

minimizeα

‖α‖1

subject to ||Aα− y||2 ≤ ε

15 / 38

Garantía teórica

Bajo ciertas condiciones, es posible demostrar que

||x? − x||2 ≤C0 ||x− xK ||1√

K+ C1ε,

donde

x?: Señal recuperadaC0,C1: Constantes

K: Nivel de dispersiónxK : Mejor K-aproximación de x


Garantía teórica

x = Ψα

y = Φx

}⇒ y = ΦΨ︸︷︷︸

A

α

Ψ: Base de representaciónΦ: Base de muestreo

Coherencia entre la base de representación y muestreo:

µ(Φ,Ψ) =√

n max1≤j,k≤n

| 〈φj, ψk〉 |


Garantía teóricaNecesitamos pares Φ, Ψ con baja coherencia. Ejemplo:

I Tiempo y frecuenciaI Frecuencia y waveletsI Aleatorio y cualquier base fija

y A α

18 / 38

Más allá de modelos dispersos

I Señales dispersas agrupadasI Minimizar la complejidad de Kolgomorov o Minimum Description

Length (MDL)I Dictionary learning

19 / 38Bach et al., (2011). Structured sparsity through convex optimization

Aprendizaje de máquinas

El problema que uno resuelve en CS se puede escribir como

minimizex

12||Ax− y||22 + λ‖x‖1

En aprendizaje de máquinas/estadística esta formulación se conocecomo lasso (least absolute shrinkage and selection operator).

20 / 38R. Tibshirani (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society.

Lasso: EjemploObservamos 10 datos en el intervalo [−1, 1] generados por

y = 2x5 + 1.5x3 + 0.5x2 + η, η ∼ N (0, 0.42)

Asumimos que los datos siguen un polinomio de a lo mas grado 10

−1.0 −0.5 0.0 0.5 1.0x

−3

−2

−1

0

1

2

3

4

5

y

Least squares

originaldataLS

−1.0 −0.5 0.0 0.5 1.0x

−3

−2

−1

0

1

2

3

4

5

y

Lasso λ = 0.12

originaldataLASSO

yLS = −54x10 + 3.1x9 + 39x8

− 3.2x7 + 77x6 + 2.4x5 − 84x4

+ 3x3 + 24x2 − 0.01x− 0.8

yLASSO = 2.6x5 + 1.5x3 + 0.01

21 / 38

Graph Lasso

Dadas las muestras y1, . . . , yn ∼ N (σp, µ), Graph Lasso estima lacovarianza como

Σ−1 = argmaxX�0

{log det X − tr(SX)︸︷︷︸log-likelihood

− λ ||X||1︸︷︷︸penalización

},

con

S :=1n

n∑

k=1

(yk − µ)(yk − µ)T , ||X||1 =∑

i,j

abs(xij)

Notar que xij = 0 implica que las variables xi y xj son condicionalmenteindependientes.

22 / 38O. Banerjee et al., (2007). Model Selection Through Sparse Maximum Likelihood Estimation for Multivariate Gaussian or BinaryData

Ejemplo Graph Lasso: Correlación entre accionesDada la variación diaria de 61 acciones durante 5 años queremos

encontrar posibles estructuras entre las acciones

3

3

vari

aci

on

ConocoPhillips American express

3

3

vari

aci

on

Raytheon Boeing

1 1200dia

3

3

vari

aci

on

Apple

1 1200dia

Pepsi

23 / 38

Ejemplo Graph Lasso: Correlación entre acciones

Procter Gamble

Walgreen

Kraft Foods

IBM

Texas instruments

HPComcast

Coca Cola

Kimberly-Clark

AIG

Kellogg

Valero Energy

Exxon

Mc Donalds

American express

Dell

3M

Mitsubishi

Canon

Wal-Mart

CVS

DuPont de Nemours

JPMorgan Chase

CablevisionTime Warner

Colgate-Palmolive

Microsoft

Raytheon

Unilever

Xerox

Yahoo

GlaxoSmithKline

SAP

Lookheed Martin

General Dynamics

Northrop Grumman

Boeing

Home Depot

Sanofi-Aventis

Pfizer

Novartis

Apple

Goldman Sachs

Cisco

Amazon

Wells Fargo

Bank of America Honda

FordCaterpillar

Sony

Pepsi

General Electrics

Toyota

Ryder

Marriott

Navistar

Chevron

ConocoPhillips

News Corp

Total

24 / 38http://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html

http://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html

Declipping a Signal in Sparseland

Sampling DeclippingCl ≤ vin ≤ Cu

Cl

Cu

25 / 38

Problem Formulation

I Signal model: sparsity in thefrequency domain

x = Ψα

I Non-clipped observations

y = Φx = ΦΨα

=

1 0 0 0 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 0 0 0 00 0 0 0 0 1 0 0 0 0 0 00 0 0 0 0 0 1 0 0 0 0 00 0 0 0 0 0 0 0 0 0 1 00 0 0 0 0 0 0 0 0 0 0 1

y Φ xc

26 / 38

Problem Formulation

I Given α, the signal at theclipped locations is

xu =

Ψu︷︸︸︷ΦuΨα

xl = ΦlΨ︸︷︷︸Ψl

α

I Clipping constraints

Ψuα ≥ Cu

Ψlα ≤ Cl

=

0 0 1 0 0 0 0 0 0 0 0 00 0 0 1 0 0 0 0 0 0 0 00 0 0 0 1 0 0 0 0 0 0 0

xu Φu Ψα

27 / 38

Why sparse in the frequency domain?

n

Cl

0

Cu

k

wav

elet

coef

.

One-sparse signal in the Haar-Wavelet domain

28 / 38

Recovery Algorithms

Basis Pursuit

α = argminα∈CN

‖Wα‖1

s.t. ΦΨα = y(BP)

Basis Pursuit with ClippingConstraints

α = argminα∈CN

‖Wα‖1

s.t. ΦΨα = y

Ψuα ≥ Cu

Ψlα ≤ Cl

(BPCC)

29 / 38

Recovery Algorithms

Reweighted `1 Minimization with ClippingConstraints

Repeat

α(`) = argminα∈CN

‖W(`)α‖1

s.t. ΦΨα = y

Ψuα ≥ Cu

Ψlα ≤ Cl

W(`+1)i =

1

|α(`)i |+ ε

` =`+ 1

(R`1CC)

until convergence

30 / 38

Recovery Algorithms

n

Cl

Cu

BPBPCCR`1CC

x

31 / 38

Trivial Pursuit with Clipping Constraints (TPCC)

FFTEstimate Λ by selectingthe biggest harmonics

until ‖r‖ < εx = Ψ(ΦΨ)†Λy

32 / 38


input: Φ, Ψ, xc, y, εinitialize: r = y, Λ(1) = ∅, ` = 1match: h = DFT{xc}while ‖r‖2 > ε do

identify: k = argmax0≤j≤N2|h(j)|

Λ(`+1) = Λ(`) ∪ {k, (N − k) mod N}h(k) = 0

update: α = argminz: supp(z)⊆Λ(`+1) ‖y− ΦΨz‖2

r = y− ΦΨα` = `+ 1

end whileoutput: x = Ψα = Ψ argminz: supp(z)⊆Λ(`) ‖y− ΦΨz‖2

33 / 38


Sample (n)

=

Sample (n)

+

Sample (n)

Frequency (k)

=

Frequency (k)

+

Frequency (k)

34 / 38

How are we using the clipping constraints?

Trivial Pursuit (TP)

hTP = (ΦΨ)T y

= ΨT (ΦTy)

︸︷︷︸zero-padded version of y

n

ΦTy

Trivial Pursuit with clippingconstraints (TPCC)

hTPCC = ΨTxc

n

xc

35 / 38

Results

2 4 6 8 10 12 14 16 18 20Sparsity level K

0

20

40

60

80

100M

min

BPBPCCR`1CC

TPCCconsOMP

36 / 38

Results for Noisy Observations

n

−Cu

Cu

x + zx

n

−Cu

Cu

x + zx

37 / 38

Results for Noisy Observations

2 4 6 8 10 12 14 16 18 20Sparsity level K

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40N

orm

aliz

ed` 2

erro

rM=50M=70M=90

38 / 38

Modelos dispersos para el procesamiento de señales y...

Documents

Transcript of Modelos dispersos para el procesamiento de señales y...