Modelos dispersos para el procesamiento de señales y...

38
Modelos dispersos para el procesamiento de señales y aprendizaje de máquinas Alejandro Weinstein Escuela de Ingeniería Biomédica Universidad de Valparaíso 28 de octubre de 2015 1 / 38

Transcript of Modelos dispersos para el procesamiento de señales y...

Page 1: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Modelos dispersos para el procesamiento deseñales y aprendizaje de máquinas

Alejandro Weinstein

Escuela de Ingeniería BiomédicaUniversidad de Valparaíso

28 de octubre de 2015

1 / 38

Page 2: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

¿Qué es una señal dispersa?

DefiniciónUna señal x ∈ RN es K-dispersa (K < N) si a lo más K coeficientesson distintos de zero. Formalmente

||x||0 ≤ K

Ejemplo: N = 10, K = 2

x =[0 0 3.14 0 0 0 0 −2.71 0 0

]

En general nos interesan los casos en que K � N

2 / 38

Page 3: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

¿Qué es una señal dispersa?

DefiniciónUna señal es aproximadamente K-dispersa si, dado ε > 0

||x− xK ||2 ≤ ε,donde xK es igual a x en las K posiciones más grande (en magnitud), ycero en el resto.

Ejemplo: N = 10, K = 2

x =[−0.02 0.1 3.14 −0.03 −0.01 0.01 −0.02 −2.71 0.02 0.03

]

xK =[0 0 3.14 0 0 0 0 −2.71 0 0

]

||x− xK ||2 = 0.12

3 / 38

Page 4: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

¿Por qué señales dispersas?Imagen original, 614400 pixels

Aproximacion usando 10 % de los coeficientes

k10−1

100

101

102

103

104

105

106

mag

nitu

d

Coeficientes Wavelets, ordenados por magnitud

4 / 38http://www.flickr.com/photos/bibiweb/6931027375/

Page 5: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Usando la dispersión como modelo

“Esencialmente, todos los modelos son incorrectos, peroalgunos modelos son útiles.”

George Box

5 / 38

Page 6: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Compressive Sensing (CS)

Es posible diseñar sistemas de adquisición que tome un número demediciones muy por debajo del tamaño de la señal

Útil cuando cada medición es:

I CaraI Lenta

6 / 38E.J. Candès and M.B. Wakin, (2008). An Introduction To Compressive Sampling

Page 7: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Ejemplo: MRICS aprovecha dos hechos:

I Las imágenes médicas se pueden comprimirI En MRI cada medición contiene información de todas las

muestras

Original Wavelets Compress (10%)(M. Lustig et al., “Compressed Sensing MRI”)

Usando CS es posible reducir el tiempo de escaneo de unaangiografía 3D de 22 a 4.4 segundos

7 / 38M. Lustig et al., Sparse MRI: The application of compressed sensing for rapid MR imaging

Page 8: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Ejemplo: cámara de 1 pixel

8 / 38http://dsp.rice.edu/cscamera

Page 9: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

La cámara de 1 pixel ocho años después

9 / 38

Page 10: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

¿Cómo funciona?

x = Ψα

y = Φx

}⇒ y = ΦΨ︸︷︷︸

A

α

Dado y y A queremos recuperar αy A α

I El sistema es indeterminadoI De las∞ soluciones, elegimos la más dispersa

10 / 38

Page 11: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

¿Cómo funciona?Queremos resolver

minimizeα

‖α‖0

subject to Aα = y

pero es muy difícil (NP-hard)

En vez, relajamos el problema original y resolvemos

minimizeα

‖α‖1

subject to Aα = y

Existen condiciones bajo las cuales ambos problemas sonequivalentes

11 / 38

Page 12: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Interpretación geométrica

Norma p: ||x||p =

(n∑

i=1

|xi|p) 1

p

Bola p de diámetro r: Bp(r) = {x ∈ Rn : ||x||p < r}

B0(r) B1(r) B2(r)

12 / 38

Page 13: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Interpretación geométrica

minimizeα

‖α‖2

subject to Aα = y

minimizeα

‖α‖1

subject to Aα = y

13 / 38

Page 14: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Otro punto de vista

Se puede pensar en CS como una instancia de la navaja de Occam:

“Entre todas las explicaciones que se ajustan a los datosacepta la más simple”

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

1?or 2?

14 / 38David Mackay, “Information Theory, Inference, and Learning Algorithms”

Page 15: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

CS en presencia de ruido

Si las observaciones son ruidosas:

y = Φx + η, ||η||2 ≤ εpodemos recuperar la señal resolviendo

minimizeα

‖α‖1

subject to ||Aα− y||2 ≤ ε

15 / 38

Page 16: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Garantía teórica

Bajo ciertas condiciones, es posible demostrar que

||x? − x||2 ≤C0 ||x− xK ||1√

K+ C1ε,

donde

x?: Señal recuperadaC0,C1: Constantes

K: Nivel de dispersiónxK : Mejor K-aproximación de x

16 / 38E.J. Candès and M.B. Wakin, (2008). An Introduction To Compressive Sampling

Page 17: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Garantía teórica

x = Ψα

y = Φx

}⇒ y = ΦΨ︸︷︷︸

A

α

Ψ: Base de representaciónΦ: Base de muestreo

Coherencia entre la base de representación y muestreo:

µ(Φ,Ψ) =√

n max1≤j,k≤n

| 〈φj, ψk〉 |

17 / 38E.J. Candès and M.B. Wakin, (2008). An Introduction To Compressive Sampling

Page 18: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Garantía teóricaNecesitamos pares Φ, Ψ con baja coherencia. Ejemplo:

I Tiempo y frecuenciaI Frecuencia y waveletsI Aleatorio y cualquier base fija

y A α

18 / 38

Page 19: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Más allá de modelos dispersos

I Señales dispersas agrupadasI Minimizar la complejidad de Kolgomorov o Minimum Description

Length (MDL)I Dictionary learning

19 / 38Bach et al., (2011). Structured sparsity through convex optimization

Page 20: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Aprendizaje de máquinas

El problema que uno resuelve en CS se puede escribir como

minimizex

12||Ax− y||22 + λ‖x‖1

En aprendizaje de máquinas/estadística esta formulación se conocecomo lasso (least absolute shrinkage and selection operator).

20 / 38R. Tibshirani (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society.

Page 21: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Lasso: EjemploObservamos 10 datos en el intervalo [−1, 1] generados por

y = 2x5 + 1.5x3 + 0.5x2 + η, η ∼ N (0, 0.42)

Asumimos que los datos siguen un polinomio de a lo mas grado 10

−1.0 −0.5 0.0 0.5 1.0x

−3

−2

−1

0

1

2

3

4

5

y

Least squares

originaldataLS

−1.0 −0.5 0.0 0.5 1.0x

−3

−2

−1

0

1

2

3

4

5

y

Lasso λ = 0.12

originaldataLASSO

yLS = −54x10 + 3.1x9 + 39x8

− 3.2x7 + 77x6 + 2.4x5 − 84x4

+ 3x3 + 24x2 − 0.01x− 0.8

yLASSO = 2.6x5 + 1.5x3 + 0.01

21 / 38

Page 22: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Graph Lasso

Dadas las muestras y1, . . . , yn ∼ N (σp, µ), Graph Lasso estima lacovarianza como

Σ−1 = argmaxX�0

{log det X − tr(SX)︸ ︷︷ ︸log-likelihood

− λ ||X||1︸ ︷︷ ︸penalización

},

con

S :=1n

n∑

k=1

(yk − µ)(yk − µ)T , ||X||1 =∑

i,j

abs(xij)

Notar que xij = 0 implica que las variables xi y xj son condicionalmenteindependientes.

22 / 38O. Banerjee et al., (2007). Model Selection Through Sparse Maximum Likelihood Estimation for Multivariate Gaussian or BinaryData

Page 23: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Ejemplo Graph Lasso: Correlación entre accionesDada la variación diaria de 61 acciones durante 5 años queremos

encontrar posibles estructuras entre las acciones

3

3

vari

aci

on

ConocoPhillips American express

3

3

vari

aci

on

Raytheon Boeing

1 1200dia

3

3

vari

aci

on

Apple

1 1200dia

Pepsi

23 / 38

Page 24: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Ejemplo Graph Lasso: Correlación entre acciones

Procter Gamble

Walgreen

Kraft Foods

IBM

Texas instruments

HPComcast

Coca Cola

Kimberly-Clark

AIG

Kellogg

Valero Energy

Exxon

Mc Donalds

American express

Dell

3M

Mitsubishi

Canon

Wal-Mart

CVS

DuPont de Nemours

JPMorgan Chase

CablevisionTime Warner

Colgate-Palmolive

Microsoft

Raytheon

Unilever

Xerox

Yahoo

GlaxoSmithKline

SAP

Lookheed Martin

General Dynamics

Northrop Grumman

Boeing

Home Depot

Sanofi-Aventis

Pfizer

Novartis

Apple

Goldman Sachs

Cisco

Amazon

Wells Fargo

Bank of America Honda

FordCaterpillar

Sony

Pepsi

General Electrics

Toyota

Ryder

Marriott

Navistar

Chevron

ConocoPhillips

News Corp

Total

24 / 38http://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html

Page 25: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Declipping a Signal in Sparseland

Sampling DeclippingCl ≤ vin ≤ Cu

Cl

Cu

25 / 38

Page 26: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Problem Formulation

I Signal model: sparsity in thefrequency domain

x = Ψα

I Non-clipped observations

y = Φx = ΦΨα

=

1 0 0 0 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 0 0 0 00 0 0 0 0 1 0 0 0 0 0 00 0 0 0 0 0 1 0 0 0 0 00 0 0 0 0 0 0 0 0 0 1 00 0 0 0 0 0 0 0 0 0 0 1

y Φ xc

26 / 38

Page 27: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Problem Formulation

I Given α, the signal at theclipped locations is

xu =

Ψu︷︸︸︷ΦuΨα

xl = ΦlΨ︸︷︷︸Ψl

α

I Clipping constraints

Ψuα ≥ Cu

Ψlα ≤ Cl

=

0 0 1 0 0 0 0 0 0 0 0 00 0 0 1 0 0 0 0 0 0 0 00 0 0 0 1 0 0 0 0 0 0 0

xu Φu Ψα

27 / 38

Page 28: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Why sparse in the frequency domain?

n

Cl

0

Cu

k

wav

elet

coef

.

One-sparse signal in the Haar-Wavelet domain

28 / 38

Page 29: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Recovery Algorithms

Basis Pursuit

α = argminα∈CN

‖Wα‖1

s.t. ΦΨα = y(BP)

Basis Pursuit with ClippingConstraints

α = argminα∈CN

‖Wα‖1

s.t. ΦΨα = y

Ψuα ≥ Cu

Ψlα ≤ Cl

(BPCC)

29 / 38

Page 30: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Recovery Algorithms

Reweighted `1 Minimization with ClippingConstraints

Repeat

α(`) = argminα∈CN

‖W(`)α‖1

s.t. ΦΨα = y

Ψuα ≥ Cu

Ψlα ≤ Cl

W(`+1)i =

1

|α(`)i |+ ε

` =`+ 1

(R`1CC)

until convergence

30 / 38

Page 31: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Recovery Algorithms

n

Cl

Cu

BPBPCCR`1CC

x

31 / 38

Page 32: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Trivial Pursuit with Clipping Constraints (TPCC)

FFTEstimate Λ by selectingthe biggest harmonics

until ‖r‖ < εx = Ψ(ΦΨ)†Λy

32 / 38

Page 33: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Trivial Pursuit with Clipping Constraints (TPCC)

input: Φ, Ψ, xc, y, εinitialize: r = y, Λ(1) = ∅, ` = 1match: h = DFT{xc}while ‖r‖2 > ε do

identify: k = argmax0≤j≤N2|h(j)|

Λ(`+1) = Λ(`) ∪ {k, (N − k) mod N}h(k) = 0

update: α = argminz: supp(z)⊆Λ(`+1) ‖y− ΦΨz‖2

r = y− ΦΨα` = `+ 1

end whileoutput: x = Ψα = Ψ argminz: supp(z)⊆Λ(`) ‖y− ΦΨz‖2

33 / 38

Page 34: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Trivial Pursuit with Clipping Constraints (TPCC)

Sample (n)

=

Sample (n)

+

Sample (n)

Frequency (k)

=

Frequency (k)

+

Frequency (k)

34 / 38

Page 35: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

How are we using the clipping constraints?

Trivial Pursuit (TP)

hTP = (ΦΨ)T y

= ΨT (ΦTy)

︸ ︷︷ ︸zero-padded version of y

n

ΦTy

Trivial Pursuit with clippingconstraints (TPCC)

hTPCC = ΨTxc

n

xc

35 / 38

Page 36: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Results

2 4 6 8 10 12 14 16 18 20Sparsity level K

0

20

40

60

80

100M

min

BPBPCCR`1CC

TPCCconsOMP

36 / 38

Page 37: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Results for Noisy Observations

n

−Cu

Cu

x + zx

n

−Cu

Cu

x + zx

37 / 38

Page 38: Modelos dispersos para el procesamiento de señales y ...profesores.elo.utfsm.cl/~mzanartu/IPD414/Docs/AW_presentation.pdfseñales y aprendizaje de máquinas Alejandro Weinstein Escuela

Results for Noisy Observations

2 4 6 8 10 12 14 16 18 20Sparsity level K

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40N

orm

aliz

ed` 2

erro

rM=50M=70M=90

38 / 38