MariaMartinezSamboal_ Tesis Reconocimiento de Celulas Por Vision Artificial

153
 Universidad Autónoma de Madrid Escuela politécnica superior Proyecto fin de carrera Detección de células Cancerosas en imágenes de Neoplasia Intraepitelial Cervical (NIC) María Martínez Samboal Junio 2012

Transcript of MariaMartinezSamboal_ Tesis Reconocimiento de Celulas Por Vision Artificial

  • Universidad Autnoma de Madrid

    Escuela politcnica superior

    Proyecto fin de carrera

    Deteccin de clulas Cancerosas en imgenesde Neoplasia Intraepitelial Cervical (NIC)

    Mara Martnez Samboal

    Junio 2012

  • Deteccin de clulas Cancerosas en imgenesde Neoplasia Intraepitelial Cervical (NIC)

    AUTOR: Mara Martnez Samboal

    TUTOR: Jess Bescs Cano

    Video Processing and Understanding Lab

    Dpto. de Tecnologa Electrnica y de las Comunicaciones

    Escuela Politcnica Superior

    Universidad Autnoma de Madrid

    Junio de 2012

  • 0

  • iPalabras Clave

    PAP, segmentacin, Grey Level Method, Energy Method, caractersticas: textura, intensidad,

    extraccin de ncleos de clulas, Chang, Plisitti.

    Resumen

    Actualmente el cncer cervical uterino o NIC (Neoplasia intraepitelial Cervical) es el segundo

    cncer ms comn en la mujer y cada ao se reportan 500.000 nuevos casos; est slo por debajo

    del cncer de mama [1]. Este trabajo se enmarca en un proyecto para mejorar el sistema de

    diagnostico precoz de este tipo de cncer en el medio rural de Mxico, haciendo aportaciones a

    un sistema porttil que intenta automatizar el proceso de captura de imgenes de muestras de

    tejido y realizar una clasificacin inicial de las imgenes ms adecuadas para ser enviadas a un

    experto de un hospital central.

    La metodologa aplicada a lo largo del proyecto, por uso en sistemas similares, est basada

    en un conjunto de algoritmos de reconocimiento de objetos, deteccin de bordes, operaciones

    morfolgicas, etc.

    Teniendo en cuenta el tipo de imgenes que poseemos en nuestro dataset, imgenes PAP (extra-

    das de la prueba de Papanicolaou), hemos realizado un estudio de las distintas tcnicas actuales.

    Una vez realizado el estudio seleccionamos los algoritmos ms adecuados para nuestro tipo de

    imagen.

    El primer trabajo seleccionado es el descrito en el articulo de [1], que est dividido en dos tcnicas

    que se aplican a las imgenes por separado extrayendo unos resultados parciales que posterior-

    mente se complementan para obtener el resultado final del algoritmo. Estos mtodos utilizados

    siguen un esquema bsico: preprocesado de la imagen (para eliminar los efectos indeseados que

    poseen las imgenes, como por ejemplo el ruido o el bajo contraste), segmentacin (extrae las

    regiones deseadas, en este caso los ncleos) y por ultimo clasificacin de las regiones en ncleos

    anormales o normales. La primera tcnica Grey Level Methodtrabaja sobre la informacin o

    escala de grises de la imagen, y la segunda Energy Method, por el contrario, aprovecha las tres

    bandas de color, aportando distintos resultados que se complementan para obtener los resulta-

    dos finales (clasificacin de ncleos en normales o anormales). A este artculo hemos tenido que

    aadir una etapa previa de adaptacin de las imgenes debido a que las imgenes que utiliza el

    artculo son imgenes uniformes y nuestro dataset no lo era.

    El informe que describe este primer trabajo es poco detallado en su explicacin y esto nos lleva

    a resultados poco precisos; por tanto realizamos la implementacin de un segundo artculo ms

    detallado que el anterior.

  • ii

    El segundo trabajo es un algoritmo de extraccin de caractersticas descrito en el artculo de [2].

    Est basado en combinar la forma, la textura e intensidad de las imgenes para extraer los ncleos

    de las clulas PAP sin confundirlos con otras zonas de la imagen que pueden considerarse como

    ncleos; para detectarlas usa: segmentacin, aplicacin operadores morfolgicos para extraer los

    ncleos, y adems utiliza la textura e intensidad para clasificar las regiones extradas en ncleos

    / no ncleos y as evitar resultados errneos.

    Tras realizar algunas modificaciones sobre los algoritmos propuestos, stos han sido implemen-

    tados y evaluados con el fin de encontrar un modelo que permita reconocer las clulas PAP, con

    independencia de las imgenes capturadas. La evaluacin de estos algoritmos se ha hecho sobre

    una coleccin de imgenes capturadas por dicho microscopio: un dataset de 88 imgenes PAP,

    las cuales contenan un total de 857 ncleos reales.

    Conforme al estudio hecho en este proyecto, se incluye un repaso detallado sobre todos los algo-

    ritmos implementados, acompaado por resultados cuantificados tras las simulaciones. De esta

    manera, cada algoritmo ha sido evaluado sobre una coleccin de imgenes reales, no sintticas.

    Este es un marco de evaluacin muy exigente y ambicioso que consigue replicar los resultados

    del estado del arte, que rondan el 85% de acierto.

    Keywords

    PAP, segmentation, Grey Level Method, Energy Method, features: texture, intensity, extract cell

    nuclei, Chang, Plisitti

    Abstract

    Currently uterine cervical cancer or CIN (cervical intraepithelial neoplasia) is the second most

    common cancer in women and each year 500,000 new cases are reported, is just below the breast

    cancer [5559114]. This work is part of a project to improve the system for early diagnosis of this

    cancer in rural Mexico, contributing to a portable system that attempts to automate the process

    of capturing images of tissue samples and perform an initial classification more adequate images

    to be sent to an expert from a central hospital.

    The methodology used throughout the project, use similar systems, is based on a set of algorithms

    for object recognition, edge detection, morphological operations, etc..

    Taking into account the type of images that we have in our dataset, images PAP (extracted

    Pappanicolaou test), we studied the different techniques. Once the study selected the most ap-

    propriate algorithms for our type of image.

    The first selected work is described in the article [5559114], which is divided into two techniques

    used to separate images by extracting some further partial results are combined to obtain the

  • final result of the algorithm. These methods are a basic scheme: preprocessing of the image (to

    eliminate the undesirable effects which have images, such as noise or low contrast), segmenta-

    tion (extract the desired regions, in this case the nuclei) and finally classification of regions in

    nuclei abnormal or normal. The first technique "Grey Level Method" works on lainformacin or

    grayscale image and the second "Energy Method", by contrast, takes the three bands of color,

    bringing different results which are combined to obtain the final results ( classification of nuclei

    in normal and abnormal). In this article we have had to add a previous stage adaptation of the

    images because the images used by the article are consistent images and our dataset was not.

    The first report describing this work is very detailed in his explanation and this leads to inaccurate

    results and therefore we make the implementation of a second more detailed article than the last.

    The second work is a feature extraction algorithm described in the article [Plissiti2011838]. It

    is based on combining shape, texture and intensity of the images to extract the nuclei of cells

    without confusing PAP with other areas of the image can be considered as nuclei, to detect used:

    segmentation, morphological operators application to extract the nuclei, and also uses the texture

    and intensity to classify the extracted regions in core / non core to avoid erroneous results.

    After some modifications to the proposed algorithms, these have been implemented and evaluated

    in order to find a model to recognize PAP cells, regardless of the captured images. The evaluation

    of these algorithms has been done on a collection of images captured by the microscope: a dataset

    of 88 images PAP, which contained a total of 857 real cores.

    Under study in this project includes a detailed review of all the algorithms implemented, accom-

    panied by quantified results after the simulations. Thus, each algorithm has been evaluated on

    a collection of real images, not synthetic. This is a very demanding evaluation framework that

    achieves ambitious replicate the performance of state of art, of around 85% accuracy.

  • iv

  • Agradecimientos

    En primer lugar, quiero a agradecer a las cuatro personas ms importantes de mi vida y sin las

    cuales probablemente no hubiera sido capaz de llegar hasta aqu: mis padres, ngel y M del

    Carmen, y mis hermanas, Gloria y Ana. Gracias por apoyarme da a da durante toda mi vida y

    en estos casi 7 aos de carrera. Gracias a los cuatro por darme siempre esa suerte antes de salir

    de casa en todos y cada uno de los exmenes.

    Gracias Mam, porque cuando empec la carrera todos me decan que era algo muy difcil y que

    me tena que acostumbrar a suspender, pero siempre creste en m y eso solo fue el principio

    de todos los apoyos que me has ido dando, interesndote por asignaturas que ni siquiera com-

    prendas, pero que en ese momento, en el que necesitaba que estuvieras pareca que lo entendas

    todo.

    Gracias Pap, porque siempre me apoyaste y me ayudaste a elegir este camino. Siempre creste

    que poda ser ingeniera; aunque todo el resto del mundo dudara, nunca v que t lo hicieras, eso

    me hizo no tambalearme y seguir adelante. Preguntndome por cada examen y transmitindome

    siempre la tranquilidad de que haba ms oportunidades y que no haba prisa, esta carrera es

    una carrera de fondo, no es llegar el primero, lo importante es llegar.

    Gracias a mi hermana Gloria, por ayudarme y transmitirme esa fuerza siempre. Porque siempre

    has credo en mi; y por el orgullo con que dices a los dems lo que estudio, siempre me has dado

    mucha fuerza para todo, pero en particular por prestarme a los muequitos sin los cuales no iba

    a ningn examen, ya que si a ti te dieron suerte una vez a mi me han ayudado durante toda

    la carrera, adems de acompaarme a mirar notas al tabln casi con ms nervios de los que yo

    tena, siempre siendo tan positiva, porque yo iba a aprobar seguro, y si no lo haca, Ves a la

    revisin, que seguro que se han equivocado. Muchsimas gracias.

    Gracias a mi hermana Ana, porque aun costandole me acompaaba a la biblioteca y me apoyaba,

    me hablaba de los circuitos y de los sistemas lineales como si supiera de ellos, aunque realmente

    no tuviera ni idea, pero siempre para sacarme fuerzas en los momentos dnde las fuerzas ya

    empezaban a faltar y el ser positiva ya no era mi fuerte. Gracias por tus mensajes que reciba dos

    minutitos antes de empezar el examen, era el poquito de fuerza que me faltaba para hacerlo muy

    bien. Y por creer en mi de manera incondicional, porque cuando hablabas de m me hacas sentir

    como que yo poda con todo, y ya se sabe que los buenos siempre ganan. Muchsimas gracias.

  • vi

    Gracias a mis abuelos, Isaac, Pablo, Gloria y Agustina y a mi to Jose, porque no han podido

    estar para darme un abrazo y decirme lo orgullosos que estn en persona, pero s que lo estn y

    me han acompaado en cada paso, se que esa es la fuerza ms grande de todas.

    Gracias a Sergio, por acompaarme todos estos aos y por apoyarme en todo, entendiendo el

    tiempo que no he podido pasar contigo porque tena que dedicarme a estudiar, y por comprender

    los nervios que me han supuesto todos estos de carrera, que quizs en muchos momentos has

    tenido que aguantar, pero siempre estando a mi lado.

    Gracias a Javi, mi amigo y gran compaa durante toda la carrera, por ayudarme a entender

    todas las cosas que no era capaz, por aguantar mis momentos bajos, porque en los que se est

    bien todo es ms fcil, por recordarme siempre que borr unas prcticas pero siempre con una

    sonrisa, y por todos los momentos buenos que hemos vivido juntos, ya que para m esta carrera

    no tendra el mismo sentido si todo este camino no lo hubiramos andado juntos. Porque eres el

    primero que conoc al llegar aqu y tuve mucha suerte de que fueras t.

    Gracias a todos mis compaeros a los primeros que llegaron y supieron hacerme un hueco en

    sus vidas, los que comparteronn muchas horas de prcticas, los que me dejaron apuntes, los que

    repitieron conmigo asignaturas, los que me deseaban suerte antes de los exmenes, los que te

    daban la enhorabuena por los aprobados y te animaban cuando eso no ocurra, los que festejaban

    conmigo el fin de las pocas de exmenes, y a todos ellos se unieran desde el principio o los que

    se han unido al final gracias por haber estado conmigo en esta carrera, en particular a Miguel

    por siempre estar ah.

    Gracias a Luis, porque llegaste muy pronto y te marchaste muy pronto, pero para m nunca lo

    has hecho, siempre has estado junto a mi, durante todos estos aos, sintiendo que esto tambin

    lo haca por ti.

    Gracias a mis amigas desde pequeas: Elena, Naiara, Laura y las dos Cristinas (Jauset y Plaza),

    y a mi amigo Marco, que siempre confiaron en mi y me apoyaron en todos los momentos que he

    ido viviendo cuando todo era fcil y aun ms difcil cuando no lo era.

    Gracias a mi tutor Jess, por la ayuda y dedicacin que me ha prestado durante estos meses, y

    a mi compaera de laboratorio Isa.

    Gracias a mis correctoras (Claudia, Ana y Gloria), que estos ltimos momentos de la memoria

    han estado para leerse todo, sacndome un hueco aunque para ellas no fuera fcil.

    Gracias a mis tos y primos. En particular, a mi madrina y a mi ta Margari, por toda su

    preocupacin.

    Gracias a todos los que en algn momento se han preocupado por m durante todo este camino,

    porque todos han ayudado a que llegue a la meta. En definitiva, GRACIAS A TODOS.

  • ndice general

    1. Introduccin 1

    1.1. Motivacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.2. Objetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.3. Estructura del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2. Antecedentes y seleccin de trabajos 7

    2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.1.1. Tcnicas de Tincin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.1.2. Tcnicas de Segmentacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.1.2.1. GVF-Snake (Gradient Vector Flow) . . . . . . . . . . . . . . . . 9

    2.1.2.2. Contornos Activos (ACM) . . . . . . . . . . . . . . . . . . . . . 13

    2.1.2.3. Segmentacin por Watershed- Transformada de watershed . . . 15

    2.1.2.4. Segmentacin por umbralizacin . . . . . . . . . . . . . . . . . . 19

    2.1.2.5. Segmentacin en imgenes a color . . . . . . . . . . . . . . . . . 20

    2.1.2.6. Segmentacin con tcnicas de clusterizacin . . . . . . . . . . . . 22

    2.1.3. Seleccin de algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    2.1.4. Introduccin a los algoritmos seleccionados . . . . . . . . . . . . . . . . . 30

    2.1.4.1. Estudio de la segmentacin para la extraccin de ncleos en im-

    genes mdicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    2.1.4.2. Introduccin a los mtodos Grey Level Method y Energy Method 32

    2.1.4.3. Introduccin al algoritmo de extraccin de caractersticas . . . . 33

    vii

  • viii NDICE GENERAL

    3. Alg. basado en niveles de gris y energa de las bandas de color 35

    3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    3.2. Adaptacin de las imgenes del dataset . . . . . . . . . . . . . . . . . . . . . . . . 37

    3.3. Desarrollo del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    3.3.1. Grey Level Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    3.3.1.1. Preprocesado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    3.3.1.2. Segmentacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    3.3.1.3. Clasificacin de regiones segmentadas . . . . . . . . . . . . . . . 47

    3.3.1.4. Resultados de Grey Level Method . . . . . . . . . . . . . . . . . 49

    3.3.2. Energy Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    3.3.2.1. Preprocesado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    3.3.2.2. Resultados de Energy Method . . . . . . . . . . . . . . . . . . . . 55

    3.4. Resultados finales del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    3.5. Anlisis Critico del Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    3.6. Propuestas de Mejora del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    4. Alg. basado en la extraccin de caractersticas de los ncleos 61

    4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    4.2. Deteccin de Marcadores de Ncleo . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    4.2.1. Preprocesado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    4.2.1.1. Ecualizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    4.2.1.2. Umbralizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    4.2.1.3. Dilatacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    4.2.2. Estimacin de los centroides de los ncleos candidatos . . . . . . . . . . . 68

    4.2.2.1. Transformacin h-minima . . . . . . . . . . . . . . . . . . . . . . 68

    4.2.2.2. Reconstruccin Morfolgica . . . . . . . . . . . . . . . . . . . . 70

    4.2.2.3. Deteccin de regiones mnimas, a travs del Mtodo Non Mxima

    Suppression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    4.2.2.4. Extraccin de Centroides . . . . . . . . . . . . . . . . . . . . . . 73

    4.3. Segmentacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

  • NDICE GENERAL ix

    4.3.1. Gradiente de la imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    4.3.1.1. Gradiente morfolgico en color de la imagen . . . . . . . . . . . . 74

    4.3.1.2. Gradiente Morfolgico de una imagen en escala de grises . . . . . 75

    4.3.2. Transformada de Watershed . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    4.4. Extraccin y seleccin de caractersticas . . . . . . . . . . . . . . . . . . . . . . . 77

    4.4.1. Extraccin de caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . 77

    4.4.1.1. Caractersticas de Forma . . . . . . . . . . . . . . . . . . . . . . 80

    4.4.1.2. Caractersticas de Textura . . . . . . . . . . . . . . . . . . . . . 81

    4.4.1.3. Caractersticas de Intensidad . . . . . . . . . . . . . . . . . . . . 83

    4.4.2. Seleccin de caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    4.5. Agrupamiento de caractersticas y clasificacin de regiones . . . . . . . . . . . . . 85

    4.5.1. Agrupamiento de caractersticas . . . . . . . . . . . . . . . . . . . . . . . . 86

    4.5.2. Clasificacin de regiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    4.6. Resultados finales del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    4.7. Anlisis Critico del Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    4.8. Propuestas de Mejora del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    5. Conclusiones 91

    5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    5.1.1. Conclusiones del algoritmo Grey Level Method y Energy Method . . . . . 91

    5.1.2. Conclusiones del Algoritmo de extraccin de caractersticas . . . . . . . . 92

    5.1.3. Conclusiones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

    5.2. Lineas de Trabajo Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    Appendix. 95

    A. Herramientas de procesado de imgenes 95

    A.1. Ecualizacin del histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

    A.2. Algoritmo de Canny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

    A.3. CLAHE (Contrast Limited Adaptative Histogram Equalization ) . . . . . . . . . . 98

    A.4. Mtodo de Otsu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

  • x NDICE GENERAL

    A.5. Operadores morfolgicos: dilatacin y erosin . . . . . . . . . . . . . . . . . . . . 103

    A.5.1. Dilatacin y Erosin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

    A.5.1.1. Dilatacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

    A.6. Gradiente morfolgico de color . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    A.7. Local Binary Patterns (LPB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    A.7.0.2. Algoritmo LBP [3] . . . . . . . . . . . . . . . . . . . . . . . . . . 108

    B. Herramientas de seleccin de variables 115

    B.1. mRMR(mnima Redundancia-Mxima Relevancia) . . . . . . . . . . . . . . . . . 115

    I Presupuesto 121

    II Pliego de condiciones 125

  • ndice de figuras

    1.1. Tipos de cncer en pases subdesarrollados. . . . . . . . . . . . . . . . . . 2

    1.2. Anatoma Femenina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    1.3. Tipos de clulas del epitelio escamoso del crvix. . . . . . . . . . . . . . . 3

    2.1. Diagrama de flujo del proceso de extraccin de clulas . . . . . . . . . . 7

    2.2. Mtodo tradicional de Snake. (Figura extrada de [4]) . . . . . . . . . . . . . 11

    2.3. GVF Snake. (Figura extrada de [4]). . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.4. Ejemplo 1 GVF Snake. (Figura extrada de [4]) . . . . . . . . . . . . . . . . . 12

    2.5. Ejemplo 2 GVF-Snake en clulas. (Figura extrada de [4]). . . . . . . . . . . 13

    2.6. Ejemplo de ACM. (Figura extrada de [5]). . . . . . . . . . . . . . . . . . . . . 14

    2.7. Ejemplo ACM con clulas. (Figura extrada de [5]). . . . . . . . . . . . . . . . 14

    2.8. Problemas de ACM. (Figura extrada de [5]). . . . . . . . . . . . . . . . . . . . 15

    2.9. Lnea de Cresta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    2.10. Fases de Watershed . Figura extrada de [6]. . . . . . . . . . . . . . . . . . . . . 17

    2.11. Eliminacin de contornos irrelevantes. (Figura extrada de[6]). . . . . . . . . 18

    2.12. Segmentacin por umbral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    2.13. Segmentacin de imgenes a color. Imagen autoexplicativa. . . . . . . . . . . 20

    2.14. Segmentacin de imgenes a color. . . . . . . . . . . . . . . . . . . . . . . . . 22

    2.15. Clusters. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    2.16.Matriz de datos y clusters. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    2.17. Centroides de la matriz de entrenamiento. . . . . . . . . . . . . . . . . . . 24

    2.18.Divisin en regiones de Kmeans. . . . . . . . . . . . . . . . . . . . . . . . . . 25

    xi

  • xii NDICE DE FIGURAS

    2.19. Parametric Fitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    2.20. Comparacin de imgenes con clulas solapadas de los algoritmos de

    Kmeans y Parametric Fitting . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    2.21. SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    2.22. SVM con combinacin no lineal de RBF. . . . . . . . . . . . . . . . . . . . 28

    2.23. Tipos de Imgenes del estudio extradas de nuestro dataset. . . . . . . . 28

    2.24. Proceso Global de la Segmentacin de Imgenes. . . . . . . . . . . . . . . 30

    2.25. Simplificacin: Eliminacin de ruido . . . . . . . . . . . . . . . . . . . . . . 31

    2.26.Diagrama de flujo del primer artculo implementado. (Figura extrada de[1]). 32

    3.1. Diagrama de flujo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    3.2. Extraccin de Imagen Uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . 38

    3.3. Diagrama del Algoritmo de baricentro . . . . . . . . . . . . . . . . . . . . . 39

    3.4. Diagrama de flujo Grey Level Method (Figura extrada de [1]). . . . . . . 41

    3.5. Ejemplos de Imagen Clara e Imagen oscura del dataset. . . . . . . . . . . 42

    3.6. Divisin de la imagen en sus componentes YUV. . . . . . . . . . . . . . . 42

    3.7. Ecualizacin sobre la imagen clara. . . . . . . . . . . . . . . . . . . . . . . . 43

    3.8. Imagen Umbralizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    3.9. Line-Scanning Imagen Clara. . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    3.10. Imagen Clara con contornos. . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    3.11. Imagen obtenida tras bwconncomp. . . . . . . . . . . . . . . . . . . . . . . . 47

    3.12. Caractersticas de ncleo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    3.13. Proceso Imagen Oscura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    3.14. Contornos en Imagen Oscura. . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    3.15. Seleccin de Ncleos Anormales . . . . . . . . . . . . . . . . . . . . . . . . . 50

    3.16.Diagrama de flujo de Energy Method . (Figura extrada de [1]). . . . . . . . 51

    3.17. Preprocesado de Energy Method: Filtros medianas. . . . . . . . . . . . . 52

    3.18. Line-Scanning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    3.19. Preprocesado + Segmentacin de Energy Method. . . . . . . . . . . . . . 55

    3.20.Resultados de Energy Method . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

  • NDICE DE FIGURAS xiii

    3.21.Resultados finales de cada mtodo por separado . . . . . . . . . . . . . . . 57

    3.22. Resultado final algoritmo Grey Level Method + Energy Method . . . . 57

    4.1. Diagrama de Flujo del algoritmo de extraccin de caractersticas. . . . 62

    4.2. CLAHE aplicado a la imagen. . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    4.3. Umbralizada con Mtodo Otsu. . . . . . . . . . . . . . . . . . . . . . . . . . 66

    4.4. Operador morfolgico de dilatacin. . . . . . . . . . . . . . . . . . . . . . . 67

    4.5. Unin de las tres componentes dilatadas. . . . . . . . . . . . . . . . . . . . 68

    4.6. Funcin Imhmin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    4.7. Aplicacin de Transformada h-minima. . . . . . . . . . . . . . . . . . . . . 69

    4.8. Reconstruccin morfolgica. . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    4.9. Reconstruccin Morfolgica de la imagen. . . . . . . . . . . . . . . . . . . . 71

    4.10.Non Maxima Suppresion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    4.11.Mtodo Non Maxima Supresion aplicada a la Imagen. . . . . . . . . . . 72

    4.12. Imagen original con el resultado de la extraccin de Centroides. . . . . 73

    4.13. .Detector de Canny. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    4.14.Gradiente Morfolgico en escala de grises. . . . . . . . . . . . . . . . . . . 76

    4.15.Watershed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    4.16.Relacin de las intensidades de los ncleos verdaderos con otras zonas. 78

    4.17.A, B y Ngh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    4.18. Extraccin de rea Ngh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    4.19. Caractersticas de forma . Figura extrada de [2] . . . . . . . . . . . . . . . . 81

    4.20. Topologa de los vecinos: a)Circular b)Hiprbola. Figura extrada de[7][3] 82

    4.21. Tabla de caractersticas de texturas. Figura extrada de [2]. . . . . . . . . . 82

    4.22. Tabla de caractersticas de intensidad. Figura extrada de [2] . . . . . . . . 83

    4.23.Deteccin de Centroides errneos de las regiones mnimas. . . . . . . . . 87

    4.24.Resultados articulo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    A.1. Ejemplo de ecualizacin de histograma. . . . . . . . . . . . . . . . . . . . . 96

    A.2. Direcciones de Bsqueda para cerrar los contornos abiertos. . . . . . . . 98

  • xiv NDICE DE FIGURAS

    A.3. Algoritmo de Canny. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

    A.4. Ejemplo de imagen mejorada mediante el algoritmo CLAHE. . . . . . 99

    A.5. Mtodo de Otsu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

    A.6. Composicin de dilatacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

    A.7. Composicin de Erosin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    A.8. Propiedades de Erosin: distribucin y composicin. . . . . . . . . . . . . 105

    A.9. Ejemplos de resultados de la aplicacin de: dilatacin y erosin. . . . . 105

    A.10.Gradiente Morfolgico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

    A.11.Procedimiento del clculo del LBP original. Figura extrada de [3]. . . . . . 107

    A.12.Topologas de Vecindarios. Figura extrada de [7]. . . . . . . . . . . . . . . . 108

    A.13.Simetra circular para Conjuntos de Vecinos. Figura extrada de [7]. . . . . 108

    A.14. Simetra circular LBP ri8,R. Figura extrada de [7]. . . . . . . . . . . . . . . . . 110

    A.15.Tipos de clulas del artculo. Figura extrada de [7]. . . . . . . . . . . . . . . 113

    A.16.Resultados de imgenes PAP distintas topologas. Figura extrada de [7]. . 114

  • ndice de cuadros

    4.1. 57 Caractersticas seleccionadas. . . . . . . . . . . . . . . . . . . . . . . . . . 84

    4.2. 16 caractersticas ms discriminantes extradas con mRMR . . . . . . . 85

    4.3. Porcentajes Medios de regiones extrados como ncleos de ms en la

    imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

    4.4. Resultados en funcin del nmero de clusters empleados. . . . . . . . . . 89

    5.1. Resultados del algoritmo de extraccin de caractersticas . . . . . . . . . 93

    xv

  • xvi NDICE DE CUADROS

  • Captulo 1

    Introduccin

    1.1. Motivacin.

    El cncer cervicouterino (CaCu) representa el segundo puesto en el ranking de mortalidad en el

    mundo [1]. El cncer cervicouterino, una clase comn de cncer en la mujer, es una enfermedad

    en la cual se encuentra clulas cancerosas (malignas) en los tejidos del cuello uterino. El cuello

    uterino es la abertura del tero.

    El cncer cervicouterino suele crecer lentamente por un perodo de tiempo. Antes de que se

    encuentre clulas cancerosas en el cuello uterino, sus tejidos experimentan cambios y empiezan

    a aparecer clulas anormales (proceso conocido como displasia). La prueba de Papanicolaou

    generalmente encuentra estas clulas; por ello se utiliza esta tcnica. Posteriormente, las clulas

    cancerosas comienzan a crecer y se diseminan con mayor profundidad en el cuello uterino y en

    las reas circundantes.

    Ya que en general no hay sntomas asociados con el cncer cervicouterino, el mdico debe ha-

    cer una serie de pruebas para buscar el cncer. La primera prueba es la de Papanicolaou, que

    explicaremos ms abajo.

    El pronstico (posibilidades de recuperacin) y la seleccin del tratamiento dependen de la etapa

    en que se encuentra el cncer (si se encuentra en el cuello uterino o si se ha diseminado a otros

    lugares) y el estado de salud en general de la paciente.

    Las muertes por CaCu han disminuido en un 70% en las ltimas 5 dcadas como resultado de la

    introduccin de la prueba de citologa cervical en la dcada de los 40 (la cual extrae clulas del

    cuello uterino para analizar), pasando de ser una de las principales causas de muerte a un lugar

    13, pero siendo an a primera o segunda causa de muerte de mujeres en pases en desarrollo

    (vase la figura 1.1 para observar los porcentajes de mortalidad de cada tipo de cncer el tipo

    CaCu es el que hace referencia la matriz). En Mxico,en particular, cada 2 horas muere una

    mujer; son 4380 casos que no son detectados a tiempo. Para evitar el Cncer Cervicouterino el

    1

  • 2 CAPTULO 1. INTRODUCCIN

    gobierno ha realizado programas para buscar mtodos de actuacin efectivos para la prevencin

    de esta enfermedad.

    Figura 1.1: Tipos de cncer en pases subdesarrollados.En la figura observamos la distribucin de mortalidad segn los tipos de cncer. En ella el cncer cervicouterino

    viene dado como cncer de matriz (matriz del tero). Y como podemos ver es el que mayor porcentaje de

    mortalidad posee.

    Para extraer y analizar estas clulas se utiliza el examen de Papanicolaou [8, 9] (como mencio-

    namos anteriormente), presentado en 1941 como un mtodo de deteccin de carcinomas en los

    genitales femeninos, el cual ha demostrado su efectividad desde hace ms de medio siglo. Los

    resultados de los estudios estadsticos que realizaron al examen de Papanicolaou [8, 9], fueron

    contundentes, porque el uso de esta tcnica permite diagnosticar un buen nmero de casos de

    neoplasia asintomtica que no es visible por el ojo humano y necesitaba forzosamente de biopsia

    para ser detectada cuando ya se haba extendido la enfermedad. Esta tcnica se lleva a cabo

    usando un pedazo de algodn, un cepillo o una esptula de madera pequea para raspar suave-

    mente el exterior del cuello uterino con el fin de recoger clulas, estas muestras de clulas son

    recogidas de los conductos cervicales del tero (tanto de la parte interna, endocrvix, como de

    la externa, exocrvix) (vase la figura 1.2 que muestra la parte exacta de la anatoma femenina

    de dnde se extraen las clulas). Adems de ser un mtodo sencillo, econmico, puede utilizarse

    de manera masiva y permite detectar el cncer en su etapa preinvasiva .

    Figura 1.2: Anatoma Femenina

    Mediante este mtodo es posible observar caractersticas en las clulas de forma clara en el mi-

  • 1.1. MOTIVACIN. 3

    croscopio. El propsito de la clasificacin del examen de Papanicolaou es diagnosticar los cambios

    pre-malignos de las clulas antes de que se transformen a carcinoma invasivo. Las muestras con-

    tienen dos tipos de clulas: de epitelio columna y de epitelio escamoso. Estas a su vez se dividen

    en cuatro capas: basal, parabasal, intermedia y superficial, cuando las clulas son normales; y

    cuando son anormales se subdividen en suave, moderada y displasia severa (vase la figura 1.3

    para observar los tipos de clulas anteriormente citados).

    Figura 1.3: Tipos de clulas del epitelio escamoso del crvix.Vemos siete tipos, de los cuales los que se presentan en la columna de la izquierda son clulas normales, mientras

    que por el contrario los de la derecha son los que hace referencia a las clulas cancergenas. Viendo que las clulas

    que poseen una relacin ncleo/ citoplasma menor son las malignas. Figura extrada de [10].

    Cuando el sistema ha terminado de escanear el portaobjetos, de las millones de imgenes que

    toma, identifica las clulas ms significativas que pueden ser anormales, para una posterior eva-

    luacin visual por el especialista. Cuando analiza clulas normales las imgenes son archivadas y

    sometidas a un procedimiento de control de calidad como revisin rpida, pero cuando detecta

    clulas anormales las imgenes son pasadas para la revisin manual.

    La motivacin principal es que este tipo de enfermedad depende de la etapa donde sea detectado.

    Este trabajo se plantea para mejorar el diseo y realizar aportaciones cientficas a un Sistema

    semiautomtico de captura y anlisis de imgenes de NIC (Neoplasia intraepitelial cervical).

    Dentro de este sistema, el cual se haya dentro del campo de la visin artificial (VA), se distingue

    el subsistema de procesamiento de imgenes, en este caso aplicado al dominio de las imgenes

    biomdicas.

  • 4 CAPTULO 1. INTRODUCCIN

    Ms especficamente en este proyecto nos centraremos en el anlisis comparativo de algoritmos

    de segmentacin y de preprocesado o procesado previo de las imgenes.

    1.2. Objetivos.

    El objetivo principal de este trabajo es el anlisis comparativo de algoritmos de segmentacin

    y preprocesado de las imgenes para mejorar la calidad de las mismas, de cara a localizar las

    imgenes ms adecuadas y sospechosas de contener tejido canceroso. Este estudio consistir en

    evaluar los diferentes algoritmos implementados en trminos de reconocimiento de los ncleos

    existentes en las imgenes. Este reconocimiento se llevar a cabo en una coleccin de 90 imgenes

    reales .

    Los algoritmos sern seleccionados entre el estado del arte, teniendo en cuenta el tipo de imgenes

    que poseemos; los algoritmos elegidos sern implementados y evaluados. Ms concretamente:

    1. Crear base de datos: Recopilacin de imgenes, de distintos tipos, de clulas cancergenas.

    2. Estudio del estado del arte: Analizaremos los tipos de imgenes y seleccionaremos las

    tcnicas ms relevantes para proceder a su implementacin y comparacin de resultados

    proporcionados por el autor.

    3. Preprocesamiento: Se investigar en la etapa de procesamiento cul es la mejor opcin para

    que la imagen sea mejorada.

    4. Segmentacin: Lograr una segmentacin adecuada de la imagen de la clula. Todo esto, se

    investigar por medio de un mtodo o combinacin de estos, y, con ello, se lograr obtener

    mejores resultados para la representacin y descripcin.

    a) Mtodo de Segmentacin en escala de grises [1].

    b) Mtodo de Segmentacin de Energa [1].

    c) Mtodo de Segmentacin por divisin de regiones [2].

    5. Identificacin.- Una vez segmentada la imagen se realizarn pruebas para comprobar la

    identificacin del ncleo de la clula anormal y normal, adems, de acuerdo al estudio del

    estado del arte, evaluaremos los resultados y parmetros obtenidos realizando un anlisis

    comparativo de las tcnicas implementadas.

    6. Aplicacin. Se integrarn los algoritmos de acuerdo a los mejores resultados para la iden-

    tificacin de las clulas NIC al sistema.

    Las tareas previas sern seguidas por un estudio exhaustivo de cada algoritmo puesto en prctica,

    conduciendo a la introduccin de posibles mejoras y futuras lneas de investigacin.

  • 1.3. ESTRUCTURA DEL DOCUMENTO 5

    1.3. Estructura del documento

    El contenido de este documento est organizado para atender los objetivos que se describen en

    la seccin anterior.

    En el captulo 1, dnde nos encontramos, hemos visto la motivacin, objetivos y la estructura

    del documento.

    En el captulo 2, estudiaremos el estado del arte de las tcnicas de preprocesado y segmentacin de

    las mismas relacionadas con el proyecto. Mostrando una seleccin de los algoritmos en funcin de

    los tipos de imgenes que poseemos, las cuales mostramos en este capitulo. Una vez conocemos los

    tipos de imgenes que poseemos seleccionaremos los algoritmos y realizaremos una introduccin

    de los mismos.

    Por otra parte, en el captulo 3, se describe el algoritmo que est compuesto por los siguientes

    mtodos: mtodo de escala de grises Grey Level Method , y mtodo de energa Energy Method

    [1] .

    A continuacin en el captulo 4, desarrollaremos el algoritmo de extraccin de caractersticas, [2].

    En los captulos 3 y 4 realizaremos, adems de la explicacin de los algoritmos, un estudio con

    los respectivos resultados de los algoritmos implementados y la evaluacin de los resultados de

    las pruebas realizadas a los mismos.

    Finalmente, captulo 5 y ultimo, que contiene las conclusiones y las lneas de trabajo futuras.

  • 6 CAPTULO 1. INTRODUCCIN

  • Captulo 2

    Antecedentes y seleccin de trabajos

    2.1. Introduccin

    En primer lugar mostraremos los pasos realizados para la extraccin de clulas de imagen mdica:

    Figura 2.1: Diagrama de flujo del proceso de extraccin de clulas

    En este diagrama de flujo podemos apreciar las distintas etapas que seguir nuestro proyecto,

    centrndonos en el bloque de segmentacin principalmente.

    2.1.1. Tcnicas de Tincin

    Segn se ha comentado anteriormente, existen diferentes sistemas comerciales de ayuda para los

    citopatlogos como PAPNET, Autopap, Thinprep, CPap, Apap, Champ, etc.; dichos sistemas

    son formas de hacer que las tinciones de Papanicolaou sean ms exactas para reconocer las clu-

    las anormales mediante segmentacin. Esta etapa tambin la realizaran los mtodos PAPNET,

    AutoPap y Champ.

    As, PAPNET [11], teniendo como iniciativa crear una base de datos de clulas anormales a

    partir de la prueba de Papanicolaou; es un sistema que combina la velocidad de un programa de

    bajo nivel con la toma de decisin mediante inteligencia artificial usando redes neuronales para

    seleccionar las regiones de inters. Cuando el sistema ha terminado de escanear el portaobjetos,

    de las 128 imgenes que toma, identifica las clulas ms significativas que pueden ser anormales,

    para una posterior evaluacin visual por el especialista.

    7

  • 8 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    Este sistema se dise inicialmente para volver a seleccionar imgenes extradas de pruebas de

    Papanicolaou que resultaron negativas, para eliminar los casos de falsos negativos, pero tambin

    puede utilizarse para una seleccin primaria eficaz.

    A raz de la exploracin PAPNET, las imgenes digitalizadas se sometieron y se clasificaron

    como anormal o negativo. Todas las anormales tenan una seleccin manual completa, mientras

    que las negativas tenan una seleccin parcial. Los resultados de cada mtodo de deteccin se

    compararon y los casos discordantes fueron revisados.

    La conclusin es que PAPNET es prcticamente igual a la seleccin manual del experto en la

    deteccin de una amplia gama de anormalidades en las clulas y es ms eficaz en la deteccin

    de anomalas en el extremo inferior del espectro anormal. Teniendo en cuenta que utiliza una

    tcnica de seleccin por umbral, la decisin del mismo influye de una manera importante en el

    resultado final.

    Otro mtodo utilizado es AutoPap [12], un sistema computerizado, el cual analiza y guarda

    de forma automtica todas las imgenes de Papanicolaou. Cuando analiza clulas normales las

    imgenes son archivadas y sometidas a un procedimiento de control de calidad como revisin

    rpida, pero cuando detecta clulas anormales las imgenes son pasadas para la revisin manual.

    El mtodo de AutoPap fue diseado para buscar las anormalidades lmina a lmina, y para

    excluir el 25% de las lminas con el riesgo ms bajo. Estas lminas eran automticamente

    excluidas de la lista, que requera revisin microscpica manual y as reducir el trabajo de los

    examinadores un 25%. Siendo capaz de detectar falsos-negativos, es decir, detectar clulas que

    han sido consideradas anormales, cuando realmente no lo son. El resultado es una reduccin

    significativa en el laboratorio de falsos negativos s este dispositivo se utiliza en la prctica

    habitual.

    El mtodo Thinprep es una forma de preparar la muestra de clulas y hace ms fcil reconocer

    las anormalidades.

    Esto me lleva a citar el sistema Champ, referenciado en [13], el cual es un sistema muy completo,

    ya que se dedica exclusivamente al anlisis de imgenes de Papanicolaou. A diferencia de otros

    sistemas, se basa en un algoritmo de reconocimiento de objetos en base al color, deteccin de

    bordes y morfologa. En base a estas tres caractersticas realiza una segmentacin por clusteri-

    zacin, esto es, divide en diferentes clases las distintas reas extradas y las clasifica en un tipo

    de clula u otro.

    Todos los sistemas comerciales anteriormente citados, adems de ser tcnicas de tincin, trabajan

    con diferentes tcnicas de segmentacin para el reconocimiento de clulas benignas o malignas.

    Esta etapa la vimos en el diagrama de bloques anterior (vase la figura 2.1 para observar las

    distintas etapas).

  • 2.1. INTRODUCCIN 9

    2.1.2. Tcnicas de Segmentacin

    La segmentacin de ncleos es una tarea clsica en el anlisis de imgenes de citologas. Se basa

    en la particin de la imagen en regiones u objetos con caractersticas similares, y la posterior

    identificacin de los ncleos, que son diferenciados del resto y etiquetados.

    Las tcnicas de segmentacin en general son muy dependientes del propsito de la aplicacin

    y del tipo de imgenes a analizar. Antes de segmentar es preciso definir qu objetos interesa

    determinar. Tras la segmentacin es posible realizar operaciones de filtrado (a nivel de objetos),

    as como determinar caractersticas que permitan clasificar los objetos.

    Una buena segmentacin es difcil de evaluar, pero fundamentalmente, lo que se busca es que

    objetos diferentes tengan valores claramente diferentes de las caractersticas seleccionadas, es

    decir, que stas sean lo ms discriminantes posible.

    Esta etapa tiene un peso especial dentro del proceso global de diagnstico: una buena segmen-

    tacin de los ncleos permite una ptima extraccin de caractersticas, y por consiguiente, una

    clasificacin ms eficiente de los ncleos. La principal dificultad que existe en este proceso es la

    presencia en las imgenes de ncleos solapados, imgenes a color, imgenes ms oscuras o ms

    claras, que dificultan este proceso. Por ejemplo, la separacin de ncleos solapados se realiza

    normalmente de modo manual.

    En la actualidad hay diferentes tcnicas de segmentacin, como se cita en los artculos [1, 14].

    Las tcnicas de segmentacin ms utilizadas son:

    GVF-Snake (Gradient Vector Flow), segmentacin basada en transiciones.

    ACM (Active Contours), segmentacin basada en transiciones.

    Watershed, segmentacin de homogeneidad, crecimiento de regiones.

    Segmentacin por Umbralizacin.

    Segmentacin por clusterizacin: K-means, Parametric Fitting, Spectral clustering, Support

    Vector Machine (SVM) con kernel Radial basis function (RBF).

    Dichas tcnicas las explicaremos a continuacin.

    2.1.2.1. GVF-Snake (Gradient Vector Flow)

    Dicha tcnica [4] est basada en las transiciones que se producen a lo largo de la imagen, entre

    sus niveles de intensidad, ya que estos referencian los diferentes objetos de la imagen.

    Los mtodos de segmentacin basada en transiciones aplican un detector de bordes sobre la

    imagen o sobre un plano de caractersticas.

  • 10 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    Las regiones se definen a partir de las fronteras delimitadas, que presentan energa mnima. La

    tcnica general para detectar los bordes, y por tanto reducir dicha energa al mnimo, es medir

    el gradiente de la imagen f en una direccin determinada j a lo largo de una recta r, la cual

    extrae los vectores gradiente de un mapa de nivel de grises o binarios de una imagen.

    Para extraer el gradiente aplicaremos las siguientes ecuaciones:

    f

    r=

    f

    x

    x

    r+f

    x

    y

    r= fxcos + fysen (2.1)

    (f

    r)max

    f

    r= 0 = fxsen

    + fycos = atan(

    fyfx

    ) direcciondeborde (2.2)

    (f

    r)max =

    f2x + f

    2y magnituddelvectorGradiente (2.3)

    Adems a esta tcnica le aadimos la tcnica de Snake, serpientes que rodean al objeto para

    delimitar su contorno. Este mtodo, GVF snake, presenta una gran ventaja, en particular, sobre

    la tcnica tradicional de Snake,ya que este mtodo proporciona insensibilidad a la inicializacin,

    permitiendo extraer los objetos de toda las partes de la imagen.

    En primer lugar veremos la Snake tradicional, sin incluir, el vector gradiente. dicho algoritmo

    presenta la siguiente estructura:

    1- Encontramos una curva inicial,x(s) = [x(s), y(s)], s[0, 1], que se mueve a travs del dominio

    espacial de una imagen para minimizar la energa funcional:

    E =

    10

    1

    2[|x(s)2 + |x(s)|2 + Eext(x(s))ds| (2.4)

    donde y son parmetros de ponderacin que controlan la tensin de la serpiente y su rigidez,

    respectivamente, x y x denotan las primera y segunda derivada de con respecto a x(s).

    La funcin de la energa externa,Eext, se deriva de la imagen por lo que se trata de los lmites.

    Dicha funcin es extrada de la siguiente manera,asumiendo que tenemos una imagen en escala

    de grises, tal como I(x,y):

    E(1)ext(x, y) = |I(x, y)|

    2 (2.5)

    E(2)ext(x, y) = |[G(x, y) I(x, y)]|

    2 (2.6)

    donde G es una funcin gaussiana bidimensional con varianza y es el operador gradiente.

  • 2.1. INTRODUCCIN 11

    Como queremos obtener la energa mnima,debemos saber que para que esta cumpla dicha con-

    dicin, debe cumplir la siguiente ecuacin de Euler:

    x(s) x(s)Eext = 0 (2.7)

    Para encontrar la solucin a la ecuacin anterior , la serpiente debe ser dinmica, y tiene que

    depender de una variable temporal:

    Xt(s, t) = x(s, t) x(s, t)Eext (2.8)

    Y cuando la ecuacin se estabiliza, encontramos la solucin a x(s,t).

    Un ejemplo del resultado obtenido es el siguiente:

    Figura 2.2: Mtodo tradicional de Snake. (Figura extrada de [4])(a) Curva de convergencia de la serpiente, (b) Fuerzas potenciales (c) Lmite de la concavidad.

    Si aplicamos el algoritmo de GVF Snake, aadiremos a la ecuacin (5) una nueva fuerza externa

    : F (g)ext = v(x, y), que llamaremos Gradient Vector Flow, que reemplaza a Eext, quedando la

    ecuacin como:

    Xt(s, t) = x(s, t) x(s, t) v (2.9)

    Definimos a GVF, como el vector que minimiza la energa funcional de v, tras aplicar el algoritmo

    completo, que encontramos en dicho artculo, obtenemos el siguiente resultado:

  • 12 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    Figura 2.3: GVF Snake. (Figura extrada de [4]).La superior tiene: (a) curva de convergencia extrada con (b) fuerzas externas y (c) muestra la concavidad de

    curvas cerradas. La inferior en (a) muestra el potencial de fuerzas, (b) el potencial de distancia y (c) las fuerzas

    del GVF.

    Vindolo ms claro en los ejemplos que vemos a continuacin:

    Figura 2.4: Ejemplo 1 GVF Snake. (Figura extrada de [4])La superior: (a) Curva inicial (b) curva que se hincha hasta llegar al limite del objeto (c) eliminacin de los bordes

    que se encuentran por fuera del objeto, calculando las fuerzas potenciales de distancia (d) Resultado final. La

    inferior: ejemplo con los mismos pasos, pero la curva inicial es mayor que los lmites del contorno del objeto.

  • 2.1. INTRODUCCIN 13

    Figura 2.5: Ejemplo 2 GVF-Snake en clulas. (Figura extrada de [4]).Muestra el proceso de GVF en una imagen mdica: (a) Imagen de una resonancia del ventrculo derecho del

    corazn (b) Curva de convergencia (c) Fuerzas potenciales de distancia (d) resultado de GVF snake.

    2.1.2.2. Contornos Activos (ACM)

    El modelo basado en deteccin de regiones llamado modelo de contorno activo (ACM) [5] se

    propone en el documento anteriormente citado. Se lleva a cabo con un proceso especial llamado

    Selective Binary and Gaussian Filtering Regularized Level Set (SBGFRLS), que por prime-

    ra vez realiza una funcin de ajuste para obtener una imagen binaria, y luego usa un kernel

    Gaussiano suavizado para regularizar la misma.

    Las ventajas de este mtodo son las siguientes: en primer lugar, se extrae una nueva regin base

    de la obtencin de las fuerzas externas de la mismasigned pressure force (SPF); la funcin que

    se propone detecta los contornos de manera eficiente. En segundo lugar, los lmites exterior e

    interior se pueden detectar automticamente con el contorno inicial pudiendo estar el objeto en

    cualquier parte de la imagen. En tercer lugar, la propuesta tiene la propiedad de la segmentacin

    selectiva local o global: se puede segmentar no slo el objeto deseado, sino tambin los otros

    objetos. En cuarto lugar, la funcin de ajuste de nivel puede ser fcilmente inicializada con una

    funcin binaria, que es ms eficiente de construir que el comnmente utilizado por distancias.

    El coste computacional de reinicializacin tambin se puede reducir. Por ltimo, el algoritmo

    propuesto puede ser implementado de manera eficiente por el sistema de diferencias finitas.

    Viendo ms claro el mtodo en los siguientes ejemplos. En primer lugar, para la deteccin de

    multiobjetos:

  • 14 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    Figura 2.6: Ejemplo de ACM. (Figura extrada de [5]).Muestra el proceso de extraccin por contornos activos. (a) la curva inicial (b) la curva inicial se pone en los

    bordes de la imagen total (c) detecta los objetos (d) seleccin de contornos definidos.

    Aplicado a una imagen de clulas:

    Figura 2.7: Ejemplo ACM con clulas. (Figura extrada de [5]).Vemos el proceso de ACM aplicado a una imagen con clulas para observar el comportamiento del algoritmo en

    nuestro tipo de imgenes.

    Pero dicho mtodo presenta limitaciones para detectar objetos en una imagen, dnde existen

    muchas regiones a detectar y adems se encuentran unidas. Esto lo vemos a continuacin:

  • 2.1. INTRODUCCIN 15

    Figura 2.8: Problemas de ACM. (Figura extrada de [5]).Aplicacin en imagen con ruido. El efecto es: objetos no detectados.

    2.1.2.3. Segmentacin por Watershed- Transformada de watershed

    En el campo del procesado de imagen, y ms concretamente en el de la morfologa matemtica,

    las imgenes de niveles de gris son habitualmente consideradas como relieves topogrficos. En la

    representacin topogrfica de dichas imgenes la altura de cada punto corresponde con el nivel

    de gris del pxel correspondiente. Esta representacin es muy adecuada para poder percibir mejor

    el efecto de una determinada transformacin sobre una imagen. Por ejemplo, que una apertura

    elimine algunos picos y lneas de cresta, mientras que el cierre tiende a rellenar valles o pequeas

    llanuras.

    La tcnica de Watershed [6] constituye una de las ms poderosas herramienta de segmentacin

    aportada por la morfologa matemtica. Anlogamente a otras tcnicas de segmentacin, el ob-

    jetivo de la tcnica es dividir en regiones la imagen de nivel de grises analizada. Generalmente

    una de ellas se corresponde con el fondo de la imagen y el resto con los objetos o regiones que

    se pretende extraer. El objetivo ltimo de esta tcnica es determinar los contornos que definen

    dichos objetos. En este punto el problema es definir qu es contorno y que no lo es.

    El punto de partida es considerar que los contornos de una imagen se corresponden con las lneas

    donde el nivel de gris vara ms rpidamente que en un determinado entorno vecino. Se define la

    imagen del gradiente,extrada en el punto anterior, la cual est formada por pxeles cuyo valor

    es el mdulo del gradiente en dicho punto (conocida como imagen gradiente). De esta manera,

    se considera que los contornos de la imagen original se corresponden con las lneas de cresta de

    la imagen gradiente.

  • 16 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    Algoritmo de Watershed

    El concepto de watershed se basa en visualizar una imagen en 3 dimensiones (3D): dos coorde-

    nadas espaciales frente a la coordenada de niveles de gris.

    En esta interpretacin topogrfico, consideramos tres tipos de puntos, o categoras en que se

    dividen los pxeles, con las que conseguiremos separar en la distintas partes caractersticas de la

    imagen:

    1. puntos que corresponden a mnimos locales.

    2. puntos en los que, si se coloca una gota de agua, esta cae con certeza en un nico mnimo.

    3. puntos en los que el agua caera con igual probabilidad hacia ms de uno de estos mnimos.

    Para un mnimo local particular, el conjunto de puntos que satisfacen la condicin (2) se llama

    catchment basin o watershed o cuenca de este mnimo. Los que satisfacen la condicin (3)

    forman lneas de cresta en la superficie topogrfica y son llamadas lneas divisorias o lneas

    de watershed o lneas de cresta. El objetivo principal de los algoritmos de segmentacin es

    alcanzar estas lneas divisorias o de cresta 2.9.

    Figura 2.9: Lnea de Cresta.Ejemplo de nivel topogrfico que podra darse en cualquier imagen. Este nivel est compuesto por diferentes

    zonas: las cuencas o mnimos locales, la lneas de cresta (valores de intensidad pueden caer con igual probabilidad

    haca ms de un mnimo local) y la inundacin.

    La idea bsica es la siguiente: supongamos que se hace un pequeo agujero en cada mnimo local,

    y que todo el relieve topogrfico es inundado desde abajo, dejando que el agua entre a velocidad

    constante.

    El agua va subiendo e inundando las cuencas. Cuando el agua de dos cuencas est a punto de

    juntarse, se construye un dique (dam) para evitar la fusin.

    La inundacin contina, y llega a un punto en que slo se ve la parte de arriba de los diques por

    arriba de la lnea de agua. Las lneas de watershed forman un camino conexo, dando por lo tanto

    bordes continuos entre las regiones (Vase la figura 2.10 para observar la fase I de Watershed) .

  • 2.1. INTRODUCCIN 17

    Figura 2.10: Fases de Watershed . Figura extrada de [6].

    Una de las grandes ventajas del algoritmo de Watershed es que extrae de manera eficaz las

    distintas regiones de las imgenes.

    Por otro lado, este mtodo no es bueno para aplicar directamente sobre la imagen gradiente.

    Pues, habitualmente, el uso directo sobre la misma para detectar las lneas de contorno, produce

    el efecto conocido con el nombre de sobresegmentacin, aunque tambin se da al aplicar la tcnica

    sobre imgenes originales. Este efecto provoca que los verdaderos contornos queden enmascarados

    por una infinidad de contornos falsos o irrelevantes.

    Habitualmente, la sobresegmentacin es debida a la presencia de ruido. Pero, tambin los efectos

    de las texturas o de objetos presentes poco relevantes, que no se desean segmentar, provocan

    la aparicin de falsos contornos asociados a multitud de valles o zonas de depresin que no

    se corresponden con objetos o regiones. Debemos solucionar dicho problema para la aplicacin

    ptima de dicho mtodo.

    Para solucionar esta sobresegmentacin existen dos posibilidades:

    1. Eliminar los contornos irrelevantes una vez realizado el watershed.

    2. Modificar la imagen gradiente, de tal forma que las regiones de depresin o valles se co-

    rrespondan nicamente con los objetos deseados.

    1.-Eliminar los contornos irrelevantes una vez realizado el watershed :

    Para implementarla, debemos considerar la imagen obtenida como un conjunto de contornos de

    los cuales se debe eliminar los que no sean representativos de regiones u objetos de la imagen.O

    considerar la imagen como un conjunto de regiones adyacente que se pueden unir siguiendo un

    determinado criterio, para que finalmente slo se tengan las regiones que se correspondan con

    los objetos que se pretenda detectar. Esta segunda posibilidad se englobara en el conjunto de

    algoritmos de Crecimiento de Regiones, analizado anteriormente.

  • 18 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    Figura 2.11: Eliminacin de contornos irrelevantes. (Figura extrada de[6]).

    Una vez extrados los marcadores, se realizara una transformacin morfolgica basada en opera-

    ciones geodsicas, que permiten:

    1. Imponer marcadores como mnimos de la imagen gradiente.

    2. Suprimir todos los dems mnimos del gradiente, los irrelevantes, rellenando los correspon-

    dientes valles.

    3. Preservar las lneas de cresta ms importantes de la imagen gradiente localizadas entre los

    marcadores.

    Esta transformacin es denominada variacin de la homotopa del gradiente, o simplemente, mo-

    dificacin del gradiente. El clculo de las lneas de cresta o watershed de la imagen gradiente

    modificada aporta los resultados esperados: el marcador del fondo se recompone el mismo; mien-

    tras que el resto de los contornos obtenidos se corresponden con los lmites de los objetos que se

    deseaba detectar.

    Pero en la mayora de los casos no ocurre de esta manera, y, por tanto, debemos acudir al

    histograma de la imagen para poder establecer un umbral.

  • 2.1. INTRODUCCIN 19

    2.1.2.4. Segmentacin por umbralizacin

    Utiliza como caracterstica solamente la luminancia de cada pxel. Esto es til si los distintos

    objetos se corresponden con niveles de gris diferentes.

    El nivel de gris determina alguna propiedad fsica en una imagen especfica de una aplicacin

    (Rayos X, RMN, bandas en satlite, etc) .

    En el caso ideal en que el objeto posea un rango estrecho de niveles de gris frente a un fondo

    uniforme, podemos establecer un nivel de gris intermedio (umbral) para separar objeto y fondo.

    Pero en la mayora de los casos no ocurre de esta manera y por tanto debemos acudir al histograma

    de la imagen para poder establecer un umbral.

    En los histogramas encontramos dos tipos de tramos: Picos (a menudo indican la presencia de

    zonas homogneas) o valles (establecen los umbrales de separacin)

    Problemas:

    Pero encontramos varios problemas en este tipo de segmentacin:

    Objetos con un amplio rango de niveles de gris

    Fondo no uniforme

    Imagen con ruido

    Dicha segmentacin quedara de la siguiente manera:

    Figura 2.12: Segmentacin por umbral.En esta figura encontramos la aplicacin del mtodo a una imagen de huella dactilar (imagen de la izquierda).

    La grfica central es el histograma de la misma (reparticin de los pxeles de la imagen a lo largo de los valores

    posibles de intensidad [0-255]) y las imgenes de la derecha son los resultados obtenidos tras umbralizar, con tres

    posibles umbrales {130,70,170}.

  • 20 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    De esta manera al aplicar un umbral u,se genera una particin de la imagen:

    L(x, y) =

    1 I(x, y) u

    0 I(x, y) > u

    Esto equivale a definir el conjunto :

    Lu = {(x, y)/I(x, y) < u}

    Este conjunto produce una divisin del espacio. La cantidad de componentes conexas de Ludeterminan el nmero de regiones.

    La determinacin del umbral adecuado para una imagen dada es un factor crtico de la segmenta-

    cin. Conociendo las distribuciones de luminancia propias de cada objeto en la imagen, el umbral

    puede estimarse mediante consideraciones estadsticas. Sin embargo, puede haber limitaciones:

    si las distribuciones estn solapadas, ningn umbral aplicado directamente sobre la luminancia

    de la imagen puede obtener una segmentacin libre de errores. Esto puede mejorarse aplicando

    un preprocesado a la imagen mediante un filtro mediana.

    2.1.2.5. Segmentacin en imgenes a color

    La segmentacin en imgenes a color se realiza mediante umbralizacin. Esta segmentacin se

    puede realizar de dos maneras:

    Figura 2.13: Segmentacin de imgenes a color. Imagen autoexplicativa.

    a) Combinacin de segmentaciones:

  • 2.1. INTRODUCCIN 21

    La combinacin de los resultados de la segmentacin de cada componente por separado suele ser

    subptima, porque limita severamente la particin del espacio de color P.

    b) Combinaciones lineales

    En algunas imgenes se pueden combinar linealmente las componentes de color y crear una nica

    caracterstica a partir de la cual segmentar . Pero el problema es cmo obtener la combinacin

    lineal ptima a partir de la descomposicin en componentes principales.

    Las combinaciones lineales se hacen de la siguiente manera:

    1. Transforman las componentes R, G y B en una sola componente : C = wRR+wGG+wBR

    2. Aplicada a todos los puntos de la imagen f(x, y) de componentes fR(x, y)fG(x, y) y fB(x, y),

    obtenemos

    c(x, y) = wRfR(x, y) + wBfB(x, y) + c(x, y) = wRfR(x, y) + wGfG(x, y)

    3. En forma vectorial c(x, y) = wT f(x, y), donde w = (WR,WG,WB)T . Adems si w es vector

    unitario, c es la proyeccin ortogonal de f sobre la recta en direccin W .

    As para calcular la componente principal:

    1. Se calcula la media de toda la imagen

    f =1

    MN

    Nx=1

    My=1

    f(x, y)

    2. Se calcula la matriz de varianzas de color

    f =1

    MN

    Nx=1

    My=1

    (f(x, y) f)(f(x, y) f)T

    3. Se calculan los autovalores y autovectores de dicha matriz:

    Los autovalores de la matriz de covarianza indican la varianza en la direccin correspondien-

    te a los autovectores, es decir, indican la proporcin de informacin original que contiene

    esa nueva caracterstica.

    El autovector dominante (es decir, el de mayor autovalor) indica la orientacin preferente

    de la distribucin global. Debiendo tomarse W igual al autovector dominante, de modo que

    c = wT f(x, y).

  • 22 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    Esto se ve reflejado en el efecto del siguiente ejemplo:

    Figura 2.14: Segmentacin de imgenes a color. .

    2.1.2.6. Segmentacin con tcnicas de clusterizacin

    En este caso estas tcnicas se utilizarn para extraer las regiones, pero su relevancia recae en que

    se aplican con frecuencia para extraer la clasificacin de las distintas regiones obtenidas,mediante

    otras tcnicas de segmentacin, en clulas normales y anormales.

    Tcnicas de clusterizacin:

    K-means

    La idea bsica del Algoritmo [15] es obtener los K centros iniciales y formar grupos de todos los

    objetos de X a los centros ms cercanos,despus recalcular los centros. La funcin de MATLAB

    utilizada para la llamada de este algoritmo en nuestro software es la siguiente:

    function [idx, C] = kmeans(matriz_entrenamiento, k);.

    Las variables asociadas son:

    1. Entrada: matriz_entrenamiento y k (nmero de centroides que queremos).

    2. Salida: idx (centroide a la que pertenece) y C (coordenadas de cada centroide para ser

    situado en el plano).

    Cuando hablamos de agrupamiento (clustering) de datos, lo definimos como asociar un dato a

    un punto cluster o grupo que es usado para representar un conjunto de valores que tienen algo

    en comn y se agrupan en funcin de ese determinado rasgo.

  • 2.1. INTRODUCCIN 23

    Figura 2.15: Clusters.En esta figura se representa una posible salida del algoritmo Kmeans. En este ejemplo del algoritmo encontramos

    divididos en 3 grupos (clusters) todos los datos de la imagen que usara el ejemplo.

    As dicho algoritmo tiene cuatro partes importantes: en primer lugar, la matriz de datos; en

    segundo lugar, la matriz de distancias; en tercer lugar, la matriz de centroides; y en cuarto, y

    ltimo lugar, la matriz de pertenencias.

    Sus diferentes variantes se basan fundamentalmente en la forma de medir distancias entre los

    datos y los grupos, el criterio para definir la pertenencia de los datos a cada grupo y la forma de

    actualizar dichos grupos.

    Matriz de datos

    En esta matriz se almacena el conjunto de muestras de las que se pretende obtener los puntos

    significativos que representen grupos a clasificar. Siendo su orden de nxN, donde N es el nmero

    de observaciones o muestras de que se dispone y n son los rasgos que caracterizan a cada muestra,

    adquirida del sistema al que representa. Como vemos en la siguiente figura, estn situados los

    cluster obtenidos del entrenamiento y los datos de la matriz:

    Figura 2.16: Matriz de datos y clusters.En la figura encontramos dos tipos de iconos: los hexgonos hacen referencia a los centroides de los grupos o

    clusters, y los tringulos son los datos que poseemos. En funcin de la distancia a la que estn de un centroide u

    otro, pertenecern a un grupo u otro.

  • 24 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    Matriz de clusters o centroides

    Los centroides que se generen durante la evolucin del algoritmo de clustering van siendo alma-

    cenados en la matriz v (n x c), siendo n el nmero de rasgos que caracterizan a cada cluster, en

    nuestro caso vectores de 16 columnas que se corresponden a las 16 caractersticas que el artculo

    implementado desea extraer y c el nmero de grupos que deben definirse antes de aplicar el

    algoritmo.

    Esta matriz se actualiza continuamente durante la evolucin del algoritmo, para ello debe pre-

    viamente definirse a que grupo pertenece cada muestra.

    Una vez tenemos el algoritmo entrenado, tenemos que pasarlo por una funcin que calcule la

    distancia de cada punto a evaluar, con los obtenidos tras el entrenamiento, para ver si pertenece

    a alguno de los distintos grupos, buscando distancia mnima.

    As podemos observar el siguiente ejemplo del algoritmo de Kmeans:

    En primer lugar mostramos los centroides extrados de la matriz de entrenamiento

    Figura 2.17: Centroides de la matriz de entrenamiento.Muestra la posicin de los centroides en la matriz total; estos centroides tienen unas coordenadas para despus

    situar el dato y comprobar la distancia a los mismos y clasificar el dato analizado.

    Y a continuacin mostramos la divisin en las distintas regiones:

  • 2.1. INTRODUCCIN 25

    Figura 2.18: Divisin en regiones de Kmeans. .Proceso y resultado de la clasificacin de regiones de una imagen.

    Parametric fitting

    Este algoritmo [16] se usa exclusivamente para la segmentacin de las imgenes extradas me-

    diante la tcnica de Papanicolaou. Este sigue un modelo paramtrico que minimiza la funcin de

    coste adaptndose a la forma de los objetos que deseamos extraer, en nuestro caso el modelo ser

    elptico por la forma de las clulas que tenemos. Los resultados de la segmentacin demuestran

    que la propuesta de dicho algoritmo es muy exitoso en la segmentacin de las imgenes dnde

    las clulas no se superponen .

    Hay muchos algoritmos no paramtricos, pero poco se ha hecho con este tipo de algoritmos

    debido a que precisa de una informacin inicial de los objetos que han de ser identificados.

    En primer lugar usa la transformada de Hough, ya que es un mtodo til para el anlisis de la

    forma. Despus de detectar los bordes, la transformada de Hough se realiza para detectar una

    forma deseada.

    A continuacin se encuentran los objetos, mediante la bsqueda de los picos en el espacio pa-

    ramtrico. A pesar de que las transformaciones Hough tienen xito en la deteccin de patrones

    analticos, tales como lneas, crculos y elipses, existen varias deficiencias con esta tcnica cuando

    se utilizan para la segmentacin de imgenes reales.

    Adems de los requisitos de almacenamiento excesivas y la complejidad computacional, las tex-

    turas de imagen, deteccin de bordes y el ruido se degradan haciendo difcil encontrar los picos

    adecuados en el espacio de parmetros.

    Para mejorar el rendimiento de segmentacin de imgenes reales, generalmente son de textura

    ruidosa tenemos que incorporar el conocimiento a priori de las formas celulares y tambin hacer

    uso de la informacin desde el interior de las regiones,en vez de sus fronteras.

    Dicho algoritmo nos muestra el siguiente resultado en el ejemplo, presentado a continuacin:

  • 26 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    Figura 2.19: Parametric Fitting .(a) imagen original (b) es la forma a la que tiene que asemejarse el objeto a extraer de la original(c) forma de la

    regin extrada en funcin de la forma esperada (d) resultado del contorno extrado superpuesto. (Figura extrada

    de[16]).

    Dicho mtodo presenta como vemos en el artculo, grandes beneficios para imgenes con regiones

    solapadas frente a otros mtodos como Kmeans.

    Figure 2.20: Comparacin de imgenes con clulas solapadas de los algoritmos deKmeans y Parametric Fitting .Las figuras superiores son los resultados obtenidos para las imgenes originales de ambos mtodos y la grfica

    inferior muestra la comparacin de los mismos (Cuanto ms ruidosa es la imagen ms problemas tiene Kmeans).

    (Figura extrada de [16]).

    Como podemos observar Parametric Fitting es ms robusto cuando encontramos clulas solapa-

    das, teniendo as problemas aun.

  • 2.1. INTRODUCCIN 27

    Support Vector Machine(SVM) clasificado con Radial Basis Function(RBF )

    Una mquina de soporte vectorial [17] construye un hiperplano o conjunto de hiperplanos en un

    gran espacio de dimensin infinita, que puede ser utilizado para la clasificacin, regresin, u otras

    tareas.

    Tiene como objetivo extraer los objetos que presentan caractersticas similares, como en nuestro

    caso de intensidad, pero a menudo dichos conjuntos cuando discriminan no son linealmente

    separables en ese espacio. (Vase la figura 2.21).

    Los vectores que definen los hiperplanos se pueden elegir para ser combinaciones lineales con

    parmetros ai de las imgenes de vectores de caractersticas que se producen en la base de

    datos.Con esta eleccin de un hiperplano, los puntos x en el espacio de caractersticas, que se

    asignan al hiperplano, se definen por la relacin:

    i iK(xi, x) = constante.

    Figura 2.21: SVM.

    En ocasiones las divisiones no son tan claras y, por tanto, tienen que realizar combinaciones no

    lineales. Sugiere una manera de crear clasificadores no lineales, mediante la aplicacin del truco

    del Kernel establecemos un ncleo (como el kernel RBF).

    Esto permite que el algoritmo se adapte al mximo, al margen del hiperplano, transformado en

    un espacio de caractersticas (vase la figura 2.22) .

  • 28 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    Figura 2.22: SVM con combinacin no lineal de RBF.Dnde la lnea roja muestra el margen mximo para establecer los datos en un grupo o en otro. Las lneas

    discontinuas muestran el margen de error para la clasificacin.

    2.1.3. Seleccin de algoritmos

    Tras realizar este estudio de las tcnicas ms utilizadas en la actualidad para segmentar imgenes

    mdicas, debemos tener en cuenta que dichos tipos de segmentaciones no son igual de adecuadas

    para todos los tipos de imgenes y, por este motivo, vamos a dar los criterios por los que hemos

    elegido las tcnicas que implementaremos. Y, tras esto, estas sern explicadas detenidamente en

    los siguientes captulos.

    En primer lugar,debemos ver cuales son nuestros tipos de imgenes, para ello mostramos una de

    ejemplo:

    Figura 2.23: Tipos de Imgenes del estudio extradas de nuestro dataset.La primera de la izquierda es una imagen con muchas clulas, la del medio una imagen oscura y la tercera es una

    imagen clara y con pocas clulas.

    A continuacin, evaluaremos los problemas que presentan cada mtodo para seleccionar los que

    implementaremos.

  • 2.1. INTRODUCCIN 29

    En primer lugar encontramos GVF-Snake; dicho mtodo es uno de lo ms robustos, pero tie-

    ne grandes dificultades al encontrar varias regiones que detectar, por tanto es especialmente

    adecuado para imgenes con clulas aisladas, lo cual no es nuestro objeto de estudio.

    El siguiente de los mtodos de segmentacin por contornos activos, y como explicamos ms arriba,

    presenta problemas cuando se trata de una imagen donde existen muchas regiones a detectar y

    adems se encuentran unidas; por este motivo no consideramos que este mtodo sea el deseado

    para nuestro tipo de imgenes.

    La segmentacin realizada mediante tcnicas de agrupamiento, requiere en la mayora de los

    casos un entrenamiento previo y precisa de gran capacidad de memoria, ya que las imgenes

    reales tienen gran coste computacional.

    Hablando ms especficamente de cada uno de los mtodos explicados, debemos resaltar tres

    deficiencias, que presentan, que hacen que seleccionemos o descartemos dichas tcnicas para ser

    implementadas.

    En primer lugar, como observamos en 2.20, Kmeans presenta grandes dificultades cuando en-

    contramos clulas solapadas, creando verdaderos problemas para extraer regiones. En el caso de

    Parametric Fitting, tambin hemos visto que requiere requisitos de almacenamientos excesivas

    y gran complejidad computacional, debido a que las imgenes reales son ruidosas, con texturas

    complicadas y esto dificulta la deteccin de bordes a dicho mtodo. Y en ultimo lugar encontra-

    mos Support Vector Machine con un Kernel RBF, que presenta grandes dificultades de extraer

    imgenes cuando las regiones a extraer se encuentran muy prximas.

    Por los motivos anteriormente argumentados, descartamos implementar estos mtodos para nues-

    tro tipo de imgenes.Y por el contrario, implementaremos los mtodos que hacen referencia a las

    caractersticas de intensidad de la imagen, ya que como explicamos en el comienzo de la memoria,

    nuestros algoritmos estn basados en la idea de que las zonas ms oscuras de la imagen hacen

    referencia a los ncleos; por este motivo implementaremos los algoritmos que enumeramos, y que

    a continuacin introducimos para realizar una explicacin detallada en los captulos posteriores:

    Watershed ms Kmeans: Algoritmo de extraccin de caractersticas 4,dnde no est Kmeans

    como tcnica de segmentacin por clusterizacin, sino como paso posterior al agrupamiento,

    siendo utilizado como clasificador de las regiones anteriormente encontradas porWatershed.

    De la misma manera el estudio que realiza el algoritmo que introducimos en la siguiente

    seccin, las tcnicas que comparamos de clusterizacin son utilizadas como clasificadores

    de regiones y no como segmentacin de imgenes, aun siendo la misma implementacin de

    la tcnica.

    Segmentacin por Umbralizacin.3.3.13

    Segmentacin en imgenes a color.3.3.23

  • 30 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    2.1.4. Introduccin a los algoritmos seleccionados

    2.1.4.1. Estudio de la segmentacin para la extraccin de ncleos en imgenes m-

    dicas

    La segmentacin de ncleos es una tarea clsica en el anlisis de imgenes de citologas. Segn

    se ha comentado anteriormente, esta etapa tiene un peso especial dentro del proceso global

    de diagnstico: una buena segmentacin de los ncleos permite una adecuada extraccin de

    caractersticas, y por consiguiente, una clasificacin ms eficiente de los ncleos. La principal

    dificultad que existe en este proceso es la presencia en las imgenes de ncleos solapados. La

    separacin de ncleos solapados se realiza normalmente de modo manual. En este trabajo se

    presenta un mtodo automtico para segmentar dichos tipos de ncleos. Este mtodo est basado

    en la combinacin de dos tcnicas de segmentacin bien conocidas (umbralizacin y transformada

    watershed) junto con un nuevo mtodo de fusin de regiones diseado especficamente para estas

    imgenes.

    La palabra segmentacin tiene un significado que depende del uso y del contexto en el cual se

    utilice. El objetivo bsico de los algoritmos de segmentacin es definir una particin del espacio.

    En el contexto de la imagen, el espacio puede ser temporal (1D), espacial (2D) o espacio-temporal

    (3D). En consecuencia, este espacio se llama espacio de la decisin. Esta seccin revisa los pasos

    principales implicados en un algoritmo de segmentacin y las principales opciones a realizar. Un

    esquema general para la segmentacin se puede considerar como la concatenacin de tres pasos

    principales, representados en la siguiente figura:

    Figura 2.24: Proceso Global de la Segmentacin de Imgenes.

  • 2.1. INTRODUCCIN 31

    Simplificacin

    La mayora de las veces,los datos originales en una imagen contienen informacin que es irre-

    levante para una aplicacin dada. En tales casos, los datos se deben simplificar, eliminando

    toda aquella informacin irrelevante. La simplificacin controla la cantidad y naturaleza de la

    informacin que es preservada. Adems, los datos simplificados deben contener reas fciles de

    segmentar. Por ejemplo, la simplificacin puede reducir la complejidad de texturas, eliminando

    ruido o eliminar objetos muy pequeos para un tamao dado.

    Figura extrada de 1

    Figura 2.25: Simplificacin: Eliminacin de ruido

    Extraccin de caractersticas.

    La segmentacin se realiza sobre caractersticas especficas de los datos. La seleccin del espacio de

    caractersticas conduce al tipo de homogeneidad que se espera en la particin final. En algunas

    aplicaciones, los datos originales proveen directamente el espacio de caractersticas necesario

    para la segmentacin. Consecuentemente, quiz se pueda introducir un ciclo en el proceso de

    segmentacin, de manera que la estimacin dependa de los resultados de la segmentacin.

    Decisin.

    Finalmente para obtener una particin de los datos, el espacio de caractersticas debe ser anali-

    zado. En este paso decide la posicin de los contornos que formaran parte del espacio de decisin.

    Los contornos separan reas de datos que contienen elementos con las mismas caractersticas en

    el espacio de caractersticas seleccionado.

    En nuestro caso encontramos tres algoritmos diferenciados para el proceso de segmentacin.

    Grey Level Method [1]. 3

    Energy Method [1]. 3

    Algoritmo de extraccin de caractersticas[2]. 4

    1( http://www.mathworks.es/help/toolbox/images/ref/medfilt2.html)

  • 32 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

    2.1.4.2. Introduccin a los mtodos Grey Level Method y Energy Method

    Ambos algoritmos son implementados para la extraccin del clulas malignas del examen de

    Papanicolaou (Pap). Extraeremos los ncleos de las clulas que son de tamao anormalmente

    grande, forma extraa, as como los que representan gran densidad, aplicando este mtodo para

    los diferentes tipos de clulas anormales.

    Este algoritmo consta de dos mtodos cuyos resultados luego se fusionan: Grey Level Method y

    Energy Method.

    El primero de ellos est basado en la escala de grises de la imagen o intensidad, sobre la que

    se realiza un procesado previo de la imagen, para facilitar la extraccin de los ncleos en la

    segmentacin. Esta etapa extraer los contornos y regiones que se consideraran ncleos y, como

    ultimo paso de dicho mtodo, extraeremos los ncleos anormales.

    El segundo de los mtodos est basado en un procesado previo de la imagen, pero en este caso

    centrado en extraer la energa de las tres componentes de color(R, G y B), por separado, para

    dejar las zonas de los ncleos ms oscuras y realizar la misma segmentacin que realiza el mtodo

    anterior; una vez tenemos las regiones y contornos extrados, clasificamos los ncleos en normales

    o anormales.

    Una vez tenemos ambos resultados por separado, los juntamos obteniendo el resultado final del

    algoritmo.

    El esquema de trabajo del artculo es:

    Figura 2.26:Diagrama de flujo del primer artculo implementado. (Figura extrada de[1]).

  • 2.1. INTRODUCCIN 33

    2.1.4.3. Introduccin al algoritmo de extraccin de caractersticas

    Este algoritmo tiene como objetivo crear un sistema automatizado para la deteccin y determi-

    nacin de los contornos de los ncleos de las clulas de Papanicolaou. La deteccin de las reas

    candidatas a ncleos se basa en un proceso de reconstruccin de imagen morfolgica y la seg-

    mentacin de los contornos de los ncleos se logra con la aplicacin del algoritmo de Watershed

    a la imagen en color, a la cual previamente hemos aplicado un gradiente morfolgico.

    Para la eliminacin de falsos positivos, utilizamos las caractersticas de la forma, la textura y la

    intensidad de la imagen, extradas de las regiones candidatas a ncleos (una etapa posterior de

    clasificacin realizada para determinar los ncleos verdaderos) mediante el algoritmo de Kmeans.

    Este algoritmo ser entrenado con las 16 caractersticas de las regiones extradas que cumplan

    el criterio de mRMR (mnima Redundancia Mxima Relevancia). El 70% de las imgenes que

    poseemos en el dataset sern utilizadas para dicho entrenamiento . Una vez tengamos los cen-

    troides, utilizaremos el 30% de nuestro dataset restante para extraer los resultados de nuestro

    algoritmo.

    Y podremos realizar un estudio en base a los resultados obtenidos en el articulo [2], el cual

    muestra los resultados de dos mtodos distintos al implementado en imgenes de Papanicolaou.

  • 34 CAPTULO 2. ANTECEDENTES Y SELECCIN DE TRABAJOS

  • Captulo 3

    Alg. basado en niveles de gris y energa

    de las bandas de color

    3.1. Introduccin

    El objetivo de este captulo es presentar una explicacin detallada del primero de los algoritmos

    que se ha implementado en este proyecto. Este algoritmo est implementado a partir de la

    descripcin y datos concretos que aparecen en el articulo [1]. Estos se han seguido fielmente; a

    excepcin de los que no se detallan en el mismo, los cuales hemos elegido segn la experiencia o

    extrayendo datos de otros artculos relacionados. Por ello, los datos que no se dan en el articulo

    los resaltaremos en las etapas donde se tengan que usar. Este algoritmo se ha probado con

    un dataset de 88 imgenes mdicas de los tipos que vimos en el captulo anterior. Durante la

    explicacin del algoritmo mostraremos los resultados parciales en cada una de las etapas.

    El objetivo del algoritmo es obtener una clasificacin de las regiones extradas como ncleos en:

    normales o anormales; para ello seguirn los criterios de rea y circularidad, ya que son unos de

    los criterios principales que siguen los expertos para clasificar las clulas.

    Los algoritmos basados en imagen mdica dependen en gran medida del tipo de imagen al que

    nos enfrentamos, y esto provoca que tengamos que aadir una etapa previa de adaptacin de

    las imgenes que poseemos en nuestro dataset para poder ser tratadas por el algoritmo. As, las

    imgenes que describe el articulo son imgenes uniformes, mientras que las que nosotros tenemos

    presentan mayor oscuridad en las esquinas al ser obtenidas por un microscopio con un patrn de

    iluminacin no uniforme. Esto crea la necesidad de una adaptacin que nos d como resultado

    una imagen uniforme para introducir en el algoritmo.

    Una vez tenemos la imagen adaptada al algoritmo explicaremos los dos mtodos por los que

    est compuesto el mismo: Grey level method y Energy method, los cuales una vez hayan extrado

    los resultados por separado, los unificarn para dar la clasificacin de las regiones en ncleos

    35

  • 36CAPTULO 3. ALG. BASADO EN NIVELES DE GRIS Y ENERGA DE LAS BANDAS DE COLOR

    normales o ncleos anormales, objetivo del algoritmo.

    En el algoritmo del artculo se implementan ambos mtodos, debido a que cada uno de ellos

    tienen distintos fundamentos y aportan una mejora distinta al mismo; Grey Level Method se

    basa en la caracterstica que tienen los ncleos de ser las zonas ms oscuras de toda la imagen;

    y Energy Method tiene en cuenta la posible situacin de ncleos en zonas oscuras de la imagen

    y, que estos, sean confundidos con el fondo y no se extraigan correctamente. Por este motivo, el

    artculo aplica ambos mtodos por separado y combina sus resultados para obtener el resultado

    final (Vase la figura 3.1 para observar el diagrama del algoritmo completo).

    Figura 3.1: Diagrama de flujo.Dividido en las siguientes etapas: adaptacin de las imgenes del dataset, desarrollo del algoritmo repartido en

    dos partes: Grey Level Method y Energy method ; y ltima etapa unificar los resultados finales.